ПРИМЕНЕНИЕ ПАДЕЖНЫХ ФРЕЙМОВ ДЛЯ АНАЛИЗА УСТНОЙ РЕЧИ
Выводы предыдущих двух разделов могут быть резюмированы следующим образом:
— описанный тип падежных фреймов содержит достаточное количество информации, представленной на нужном уровне абстракции, чтобы анализировать устную речь предметно-ограниченного содержания;
— алгоритмы, которые были разработаны для анализа письменной речи методом падежных фреймов, непригодны для обработки устных входных сообщений, так как работа этих алгоритмов в значительной степени основана на присутствии в тексте коротких функциональных слов, а они распознаются на акустическом уровне в лучшем случае ненадежно.
В пробной реализации нашего подхода мы существенным образом используем падежные фреймы, но делаем это по-новому, а именно:
1) в словесной решетке, полученной в результате акустического распознавания речи, ищутся слова, соответствующие заголовкам (headers) падежных фреймов;
2) все падежные фреймы найденных слов комбинируются всеми семантически и синтаксически допустимыми способами;
3) для каждой комбинации падежных фреймов, полученной таким образом, делается попытка заполнить разрывы между словами- заголовками путем подбора слов из решетки на вакантные семантические и синтаксические роли в данной комбинации падежных фреймов;
4) в качестве окончательного варианта анализа система стремится выбрать тот, который объясняет наибольшую часть обрабатываемого высказывания и при котором проанализированные слова имеют наибольшее значение коэффициента достоверности акустического распознавания (точнее, интерпретирующая сила окончательного варианта анализа определяется с учетом этих двух парамет- ров).
Этот многоступенчатый подход позволяет избежать трудностей, возникающих в работе алгоритма анализа письменного текста методом падежных фреймов за счет привязки анализа к словам-заголовкам. Заголовки падежных фреймов — это глаголы (в случае падежных фреймов — предложения) и существительные (для номинальных падежных фреймов).
Эти слова полнозначные, в речи несут на себе ударение и нередко многосложны, что повышает шансы на их правильное распознавание по сравнению с краткими безударными служебными словами. Таким образом, семантически важные точки привязки процедуры анализа коррелируют с наиболее надежно распознаваемыми словами.Идея проведения одного или нескольких вариантов анализа на уровне структурного остова (skeleton level) и последующей окончательной актуализации (instantiating) только того или тех из них, которые соответствуют всем требованиям, вплоть до конкретных ограничений лексического уровня, близка по своей сути к стратегии планирующих систем (planners) типа ABSTRIPS (Sacerdoti, 1974) и NOAH (Sacerdoti, 1977), которые сначала разрабатывают общий план действий, а затем по мере необходимости уточняют детали. Таким образом, анализатор не теряет время на выдвижение гипотез о локальных деталях, которые, возможно, не будут согласовываться с результатами общего анализа.
Дополнительное преимущество, вытекающее из решения начинать обработку с заголовков падежных фреймов, связано с тем, что результирующая комбинация падежных фреймов представляет собой готовую семантическую интерпретацию обрабатываемого высказывания. Обычно эта интерпретация является неполной. Недостающая информация должна поступить с последующей стадии анализа — заполнения пропусков. Однако даже в том случае, когда все или некоторые из остальных слов распознаны настолько плохо, что невозможно получить полной интерпретации, анализатор может сообщить какие-то полезные сведения. В зависимости от конкретной предметной области интерпретация на уровне структурного остова может оказаться достаточной для ее дальнейшего использования или, по крайней мере, она может послужить основой для обращения к пользователю с целенаправленной просьбой подтвердить интерпретацию или разъяснить сомнительные места.
В оставшейся части раздела мы более подробно рассмотрим осуществленную нами на сегодняшний день реализацию изложенного выше подхода.
Начнем с описания словесной решетки, которую обрабатывает методом падежных фреймов наш анализатор устной речи. Этот анализатор функционирует в составе полной системы понимания речи, распознающей слитную речь без подстройки под диктора. Объем словаря — 200 единиц. Предметная область — электронная почта.Информация, поступающая на вход нашего анализатора, может быть представлена в виде двумерной решетки слов. Каждому слову приписано время его начала и конца, а также коэффициент правдоподобия. Время начала/конца задает место данного слова в высказывании. Коэффициент правдоподобия показывает, насколько мы уверены в том, что данное слово распознано на акустическом уровне верно. В решетке, приводимой ниже в качестве примера (см. рис. 3), на горизонтальной оси откладывается время, на вертикальной — величина коэффициента правдоподобия. Эта словесная решетка была построена вручную в целях демонстрации.
Рис. 3. Упрощенный вариант словесной решетки, содержащей различные типы слов.
(Слова-заголовки фреймов подчеркнуты.)
500
2000
Время в миллисекундах 1000 1500
высокое
п
р
А
В
д
о
п
о
д
о
Б
RECEIVED
‘ПОЛУЧЕН
НЫЙ’
USERS
‘ПОЛЬЗОВА
ТЕЛИ’
FORWARD
‘ПОСЛАТЬ’
‘ПЕЧАТАТЬ’
MESSAGE
‘СООБЩЕНИЕ’
SMITH
RECIPIENTS ‘СМИТ’ ‘ПОЛУЧАТЕЛИ’
CUMA
‘Адрес УКМ’
АТ
‘В’
LINEPRINTER
‘ПЕЧАТАЮЩЕЕ
УСТРОЙСТВО’
COPYING
‘КОПИРОВА
НИЕ’
THE
(ОПР. АРТИКЛЬ)
4.2.