ПОЧЕМУ ДЛЯ ПОНИМАНИЯ УСТНОЙ РЕЧИ НЕОБХОДИМ СЕМАНТИКО-СИНТАКСИЧЕСКИЙ АНАЛИЗ
Чтобы компьютер мог понимать устную речь во всем ее разнообразии и соответствующим образом реагировать на нее, явно недостаточно просто распознать, какие слова были произнесены.
Как и в случае ввода печатных сообщений, необходимо определить значение всего входного высказывания в целом. Как известно, цель автоматической обработки текстов на естественном языке обычно состоит в установлении значения последовательности слов, введенной в ЭВМ с клавиатуры. Очевидно, методы анализа, уже разработанные в этой области, можно использовать и для извлечения смысла из устной речи.К сожалению, прямое перенесение этих методов в область обработки устной речи невозможно по ряду причин. Некоторые из них мы приведем ниже. Допустим, что существует система распознавания речи [37], которая преобразует устное входное сообщение в словесную решетку (word lattice), составленную из множества гипотетических слов, которые могут наличествовать во входном сообщении, с указанием времени их начала и конца и оценками вероятности того, что данное слово распознано верно. Как правило, система распознавания выдвигает для каждой точки в речевом сигнале несколько конкурирующих слов-гипотез. Сделанное допущение является сильным упрощением в том смысле, что оно не предусматривает возможности (для семантико-синтаксического анализатора) как-либо влиять на более низкие уровни обработки речевого сигнала. Тем не менее это допущение, содержащее принцип обособленности уровней обработки, позволяет проиллюстрировать те трудности, с которыми приходится сталкиваться при попытке приспособить технику анализа письменной речи к устному вводу.
— Лексическая неоднозначность. Для данного отрезка речи распознающее устройство может предложить несколько слов-кандида- тов. Если бы проблема возникающих неоднозначностей сводилась к простому выбору между различными словами, то для ее решения можно было бы прибегнуть к технике анализа многозначных слов, отработанной на письменной речи (например, в английском языке слово bank может означать место, куда помещают деньги, берег реки, выражение доверия к кому-либо, наклон на одну сторону транспортного средства при повороте и т.
д.). Однако дело не только в множественности лексико-семантических гипотез, но и в том, что конкурирующие гипотезы могут приходиться на перекрывающиеся, смежные или несоприкасающиеся отрезки речевого сигнала при отсутствии надежно определенных словесных границ. Подобные ситуации не встречаются при обработке письменной речи.— Оценки вероятности: Система распознавания речи для каждого слова-гипотезы рассчитывает обычно относительную вероятность правильного распознавания. Эти вероятности, или коээфици- енты правдоподобия (scores), отражают степень близости между
анализируемым речевым сигналом и фонетическими эталонами распознающей системы. Так как для одного и того же отрезка речи может быть выдвинуто несколько слов-кандидатов, а величины коэффициента правдоподобия этих слов могут сильно различаться, то эти коэффициенты можно использовать для ограничения направлений поиска истинного (реально произнесенного) слова. Однако не существует способа, позволяющего органически ввести коэффициенты подобия в сложившиеся методы обработки письменных текстов.
— Нераспознанные слова: Небрежное произношение или эффекты коартикуляции могут привести к тому, что система распознавания не сможет обнаружить некоторые из слов входного высказывания. Обычно, хотя и не всегда, пропущенные таким образом слова — это короткие, не несущие на себе ударения так называемые „функциональные" слова. Более длинные „полнозначные" слова пропускаются редко. Стандартные методы обработки сообщений на естественном языке проблему пропущенных слов не решают. Однако появившиеся недавно новые методы, ориентированные на обработку печатного, но грамматически несовершенного ввода, могут быть приспособлены для решения этой проблемы, так как они предусматривают, в частности, и необходимость восстановления пропущенных слов.
— Грамматические ошибки. Наряду с пропуском слов существует проблема большей распространенности грамматических ошибок в устной речи по сравнению с письменной.
Ведь, как говорится, сказанного не вернешь, тогда как в письменном тексте ошибки можно исправить, если вовремя их обнаружить. Поэтому при разработке методов анализа устной речи следует особое внимание уделять развитию тех методов преодоления коммуникативных неудач, которые связаны с грамматическими ошибками и которые уже начали разрабатываться для печатного ввода.Перечисленные выше проблемы предостерегают от чрезмерно упрощенного подхода к задаче стыковки модуля распознавания речи с традиционным лингвистическим процессором, предназначенным для обработки слов, вводимых с клавиатуры в однозначном коде ASC И. Как бы ни были хороши эти две системы сами по себе, нельзя надеяться на их успешное объединение, если лингвистический процессор не сможет обеспечить семантическую интерпретацию для данных, поступающих от распознающего модуля, не сможет разрешить массовой лексической неоднозначности или не сможет работать в условиях ошибок распознавания и отклонений от правил грамматики. Если же состыковать эти устройства адекватным образом, то реализация обратной* связи от лингвистического процессора сможет существенно-улучшить работу подсоединенного распознающего модуля. Современные системы распознавания слитной речи нуждаются в радикальном улучшении, так как результаты их работы несопоставимы с тем, что делает человек. (Заметим, что даже человек часто не может идентифицировать, скажем, служебные слова, искусственно вычлененные из окружающего контекста.) Методы акустического распознавания речи необходимо дополнить (с помощью методов анализа письменного текста) лингвистическими знаниями и механизмами семантического предсказания, чтобы иметь возможность порождать набор правдоподобных (и осмысленных) интерпретаций слов во входном сообщении.
2.