<<
>>

Объединение слов-заголовков

Анализатор начинает обработку решетки с выбора в ней всех заголовочных слов, имеющих величину коэффициента правдоподобия выше некоторого порога. Эти слова-заголовки соответствуют па­дежным фреймам, но лишь некоторые комбинации гипотетических падежных фреймов возможны в данной предметной области.

Для исчисления разрешенных комбинаций падежных фреймов был полу­чен набор правил НС, которые описывают структуры составляющих и применяются на уровне фреймов, а не на более детализированном уровне слов.

Чтобы конкретизировать наше описание, обратимся к примеру решетки слов, представленной на рис. 3. В этой решетке подчеркну­тые слова-заголовки будут объединены в такие ядерные предло­жения, как

Forward message Smith CMUA

‘Послать сообщение Смит адрес УКМ’

Print message lineprinter

‘Печатать сообщение печатающее устройство’

Падежные рамки могут сочетаться подобным образом, если одна из них может заполнить падежную ячейку другой, что определяется атрибутом этого падежа „Заполнитель" (InstanceOf). Когда анали­затор подбирает комбинации падежных фреймов, относящихся к сло­вам-заголовкам, он также использует знания о порядке слов, чтобы ограничить число возможных комбинаций. В нашем примере па­дежный фрейм forward (см. рис. 1) имеет ячейку для семантического падежа MsgObjDesc, реализуемого на синтаксическом уровне как Прямой-Объект. Ограничения на порядок слов, используемые ана­лизатором, допускают, что за глаголом может следовать только прямой объект, Падежный фрейм сообщение (message) (см. рис. 2) отвечает этим требованиям. В словесной решетке message следует за forward. Соответствующие падежные фреймы могут быть объеди­нены, конечно, при условии, что могут быть соблюдены ограничения на обязательный падеж MsgRecipientObj (эти ограничения вы­полняются словом-заголовком Smith).

Каждый раз, когда находится правдоподобная последователь­ность заголовочных слов, ей присваивается обобщенный коэф­фициент правдоподобия и она сливается с ранее установленными последовательностями. В конце этапа объединения слов-заголовков получается список упорядоченных частичных фраз, содержащий все разрешенные последовательности слов-заголовков, какие могли быть обнаружены в данной словесной решетке. Каждая частичная фраза представлена в виде множества вложенных конкретных реализаций падежных фреймов. Так, например, три комбинации будут образо­ваны из следующих слов-заголовков:

Forward message Smith CMUA ‘Послать сообщение Смит адрес УКМ’

Эти комбинации будут иметь следующую структуру вложения (nesting), где в квадратных скобках даны реализации падежных фреймов, а структура вложений передается с помощью текстовых включений (textual inclusion):

[ForwardAction

HeadForm FORWARD MsgObj [MsgObjDesc

HeadForm MESSAGE]

MsgRecipientObj [MailAdrDesc

HeadForm SMITH Host [LocationDesc

HeadForm CMUA] ] ]

[ForwardAction

HeadForm FORWARD MsgObj [MsgObj Desc

HeadForm MESSAGE]

CCRecipientObj [MailAdrDesc

HeadForm SMITH Host [LocationDesc

HeadForm CMUA] ] ]

[ForwardAction

HeadForm FORWARD MsgObj [MsgObj Desc

HeadForm MESSAGE

MsgOriginObj

[MailAdrDesc

HeadForm SMITH Host [LocationDesc

HeadForm CMUA] ] ] ]

На этапе объединения падежных фреймов используется проце­дура проверки стыка слов.

Всякий раз, когда два слова-заголовка объединяются в частичную фразу, проверяется стык между этими словами, чтобы установить:

не перекрываются ли эти слова, что указывало бы на недопусти­мость данного объединения;

имеют ли они общую границу;

существует ли между ними разрыв, что свидетельствовало бы о присутствии в речевом сигнале на месте разрыва значимой инфор­мации.

Эта проверка позволяет также анализатору успешно обрабаты­вать случаи коартикуляции фонем на стыке слов: например, some messages ‘какие-то сообщения’. Фонемы [т т] сливаются в произ­ношении, что дает пару перекрывающихся, но валидных слов-канди- датов. Проверка стыков слов представляет собой механизм обратной (сверху вниз) связи, позволяющей улучшить результаты распозна­вания речи.

4.3. Обработка падежных показателей

Как только комбинации падежных фреймов сформированы, ана­лизатор переходит к заполнению разрывов между словами соответст­вующей частичной фразы. Рассматривается каждая комбинация по порядку, начиная с той, которая имеет максимальную величину коэффициента правдоподобия. Сначала анализатор пытается за­полнить разрывы показателями падежа, которые обычно реализуют­ся в виде предлогов.

Продолжим разбор нашего примера, взяв первую комбинацию слов-заголовков, образованную из фразы Forward message Smith CMUA. В этой фразе показатели падежа могут появиться в виде предлогов перед словами Smith и CMUA. Требование, чтобы падеж­ные показатели появлялись между словами-заголовками вклю­чающего и включаемого падежного фреймов, является сильным ограничением на возможное местонахождение показателя падежа. Обычно сильно лимитирован и состав слов, которые могут выступать в роли показателя падежа. В нашем примере в соответствии с опреде­лениями падежных фреймов, описанными в предыдущих разделах, анализатор попытается верифицировать в разрыве между message и Smith одно из следующих слов: to ‘к’, from ‘от’, ccing ‘копирование под копирку’ или copying ‘копирование’, а между Smith и CMUA — on ‘на’ или at ‘в’.

После того как анализатор предсказал для данного сегмента высказывания некоторый набор слов, в работу вступает модуль верификации слов. Этому модулю известна вся словесная решетка. Слово, которое отвечает предсказанию, ищется в решетке в указан­ном месте разрыва. Дополнительно анализируются акустико-фоне­тические данные, чтобы установить, покрывает ли верифицируемое слово полностью разрыв, имеются ли непокрытые отрезки справа или слева, или же они окружают верифицируемое слово. Эта инфор­мация позволяет анализатору определить, какая часть высказывания покрывается (объясняется) данной гипотетической частичной фра­зой.

При каждом успешном верифицировании падежного показателя анализатор порождает еще одну гипотетическую частичную фразу. Верифицируемое слово может быть получено в результате необосно­ванной гипотезы, возникшей при распознавании того, что не было произнесено на самом деле (ошибка распознавания типа „ложная тревога"). Поэтому старая частичная фраза (без падежного пока­зателя) сохраняется, а новая фраза, являющаяся копией старой, за исключением разрыва, заполненного падежным показателем, до­бавляется к существующему списку частичных фраз. Для новой фразы рассчитывается новое значение коэффициента правдопо­добия.

Текущее значение коэффициента частичной фразы определяется суммой нормализованных во времени вероятностей каждого слова, деленной на длительность всего высказывания. Таким образом, коэффициент правдоподобия каждого слова умножается на длитель­ность этого слова, полученные произведения суммируются и делятся на длительность всего высказывания. Очевидно, что такая процедура отдает предпочтение длинным фразам. Это может приводить к тому, что длинная фраза-кандидат, составленная из слов с очень низкими коэффициентами правдоподобия, будет предпочитаться более ко­роткой фразе, компоненты которой распознаны и проанализированы более надежно. В настоящее время мы исследуем альтернативные подходы к расчету коэффициента правдоподобия частичной фразы, в которых этот эффект будет учтен. Идеальный коэффициент правдо­подобия должен отражать также качество семантической и синтакси­ческой правильности построения частичной фразы.

В некоторых случаях верифицируемый падежный показатель может быть не найден в словесной решетке. Это может быть в двух случаях:

а) система распознавания речи не обнаружила показатель. Неозвученные, коартикулированные односложные слова (например, предлоги) часто пропускаются;

б) наиболее вероятный вариант анализа на уровне слов-заголов­ков на самом деле оказался неправильным. В этом случае следует изучить менее правдоподобный вариант анализа и определить сте­пень его соответствия акустическим данным.

В настоящее время в алгоритме анализа учитывается только второй случай, но с помощью более мощного модуля верификации мы исследуем возможность возвращения к процессам обработки на более низком уровне (акустический анализ или выдвижение гипотез о словах), располагая при этом сильными предсказаниями того, что следует ожидать на определенном отрезке входного речевого сигнала (одно или два слова). Мы надеемся, что такая процедура позволит обнаруживать слова, которые при более грубом акустическом анали­зе пропускаются. Таким образом будут использованы семантико­синтаксические ожидания для управления процессом распознавания наиболее трудных сегментов входного сообщения. В том случае, когда показатель падежа, распознанный с помощью предсказания верифи­катора, будет иметь слишком низкий коэффициент правдоподобия, высокое значение обобщенного коэффициента, полученное для сле­дующего варианта анализа, может привести к оценке распознан­ного падежного показателя как наиболее предпочтительного.

4.4.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Объединение слов-заголовков:

  1. IX. Общие итоги второго периода в истории науки уголовного права в России
  2. IV. Состояние науки уголовного права к началу шестидесятых годов XIX в.
  3. Правовая система
  4. Выделение «смысловых ядер».
  5. М. Ю. Лермонтов
  6. ОТ ПЕРЕВОДЧИКА
  7. ЯЗЫК ХУДОЖЕСТВЕННОГО ПРОИЗВЕДЕНИ
  8. § 11. СЛОВО КАК ОБЪЕКТ СИНТАКСИСА
  9. Глава 3. Текст как ведущая единица словесно коммуникаций
  10. ПРЕДИСЛОВИЕ
  11. 3.3. Гражданское Право[3]
  12. 4.1. Понятие «речевой жанр» в современной лингвистике
  13. СИНТАКСИС. ВВЕДЕНИЕ
  14. Правовая система
  15. ДОКУМЕНТЫ 1892-1911 гг.
  16. § 1. Источники права IX-XV вв.
  17. 3. Словосочетание и его отношения к слову и предложению
  18. Объединение слов-заголовков
  19. Синтаксические единицы в их отношении к языку, речи и тексту. Ориентация на многомер­ность при изучении синтаксических единиц. Сущность словоформы. Общая характеристика «Синтаксического словаря» Г. А. Золотовой (М. , 1988). Типология словоформ (синтаксем).
  20. ГЛАВА 4 ВАРИАНТНОЕ ИСПОЛЬЗОВАНИЕ КОЛИЧЕСТВЕННЫХ И СОБИРАТЕЛЬНЫХ ЧИСЛИТЕЛЬНЫХ: ВЛИЯНИЕ СЕМАНТИЧЕСКОГО ФАКТОРА