<<
>>

ПОЧЕМУ ДЛЯ ПОНИМАНИЯ УСТНОЙ РЕЧИ НЕОБХОДИМ СЕМАНТИКО-СИНТАКСИЧЕСКИЙ АНАЛИЗ

Чтобы компьютер мог понимать устную речь во всем ее разнооб­разии и соответствующим образом реагировать на нее, явно недо­статочно просто распознать, какие слова были произнесены. Как и в случае ввода печатных сообщений, необходимо определить значение всего входного высказывания в целом.

Как известно, цель автома­тической обработки текстов на естественном языке обычно состоит в установлении значения последовательности слов, введенной в ЭВМ с клавиатуры. Очевидно, методы анализа, уже разработанные в этой области, можно использовать и для извлечения смысла из устной речи.

К сожалению, прямое перенесение этих методов в область обра­ботки устной речи невозможно по ряду причин. Некоторые из них мы приведем ниже. Допустим, что существует система распознавания речи [37], которая преобразует устное входное сообщение в словесную решетку (word lattice), составленную из множества гипотетических слов, которые могут наличествовать во входном сообщении, с указа­нием времени их начала и конца и оценками вероятности того, что данное слово распознано верно. Как правило, система распознава­ния выдвигает для каждой точки в речевом сигнале несколько конку­рирующих слов-гипотез. Сделанное допущение является сильным упрощением в том смысле, что оно не предусматривает возможности (для семантико-синтаксического анализатора) как-либо влиять на более низкие уровни обработки речевого сигнала. Тем не менее это допущение, содержащее принцип обособленности уровней обра­ботки, позволяет проиллюстрировать те трудности, с которыми при­ходится сталкиваться при попытке приспособить технику анализа письменной речи к устному вводу.

— Лексическая неоднозначность. Для данного отрезка речи рас­познающее устройство может предложить несколько слов-кандида- тов. Если бы проблема возникающих неоднозначностей сводилась к простому выбору между различными словами, то для ее решения можно было бы прибегнуть к технике анализа многозначных слов, отработанной на письменной речи (например, в английском языке слово bank может означать место, куда помещают деньги, берег реки, выражение доверия к кому-либо, наклон на одну сторону транспорт­ного средства при повороте и т. д.). Однако дело не только в множест­венности лексико-семантических гипотез, но и в том, что конкурирую­щие гипотезы могут приходиться на перекрывающиеся, смежные или несоприкасающиеся отрезки речевого сигнала при отсутствии надеж­но определенных словесных границ. Подобные ситуации не встреча­ются при обработке письменной речи.

— Оценки вероятности: Система распознавания речи для каж­дого слова-гипотезы рассчитывает обычно относительную вероят­ность правильного распознавания. Эти вероятности, или коээфици- енты правдоподобия (scores), отражают степень близости между

анализируемым речевым сигналом и фонетическими эталонами рас­познающей системы. Так как для одного и того же отрезка речи мо­жет быть выдвинуто несколько слов-кандидатов, а величины коэф­фициента правдоподобия этих слов могут сильно различаться, то эти коэффициенты можно использовать для ограничения направлений поиска истинного (реально произнесенного) слова. Однако не су­ществует способа, позволяющего органически ввести коэффициенты подобия в сложившиеся методы обработки письменных текстов.

— Нераспознанные слова: Небрежное произношение или эффек­ты коартикуляции могут привести к тому, что система распознавания не сможет обнаружить некоторые из слов входного высказывания. Обычно, хотя и не всегда, пропущенные таким образом слова — это короткие, не несущие на себе ударения так называемые „функцио­нальные" слова. Более длинные „полнозначные" слова пропуска­ются редко. Стандартные методы обработки сообщений на естест­венном языке проблему пропущенных слов не решают. Однако поя­вившиеся недавно новые методы, ориентированные на обработку пе­чатного, но грамматически несовершенного ввода, могут быть при­способлены для решения этой проблемы, так как они предусматри­вают, в частности, и необходимость восстановления пропущенных слов.

— Грамматические ошибки. Наряду с пропуском слов существует проблема большей распространенности грамматических ошибок в устной речи по сравнению с письменной. Ведь, как говорится, ска­занного не вернешь, тогда как в письменном тексте ошибки можно исправить, если вовремя их обнаружить. Поэтому при разработке методов анализа устной речи следует особое внимание уделять раз­витию тех методов преодоления коммуникативных неудач, которые связаны с грамматическими ошибками и которые уже начали разра­батываться для печатного ввода.

Перечисленные выше проблемы предостерегают от чрезмерно упрощенного подхода к задаче стыковки модуля распознавания ре­чи с традиционным лингвистическим процессором, предназначенным для обработки слов, вводимых с клавиатуры в однозначном коде ASC И. Как бы ни были хороши эти две системы сами по себе, нельзя надеяться на их успешное объединение, если лингвистический про­цессор не сможет обеспечить семантическую интерпретацию для дан­ных, поступающих от распознающего модуля, не сможет разрешить массовой лексической неоднозначности или не сможет работать в ус­ловиях ошибок распознавания и отклонений от правил грамматики. Если же состыковать эти устройства адекватным образом, то реали­зация обратной* связи от лингвистического процессора сможет су­щественно-улучшить работу подсоединенного распознающего моду­ля. Современные системы распознавания слитной речи нуждаются в радикальном улучшении, так как результаты их работы несопоста­вимы с тем, что делает человек. (Заметим, что даже человек часто не может идентифицировать, скажем, служебные слова, искусственно вычлененные из окружающего контекста.) Методы акустического распознавания речи необходимо дополнить (с помощью методов ана­лиза письменного текста) лингвистическими знаниями и механиз­мами семантического предсказания, чтобы иметь возможность по­рождать набор правдоподобных (и осмысленных) интерпретаций слов во входном сообщении.

2.

Подготовка к ЕГЭ/ОГЭ
<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме ПОЧЕМУ ДЛЯ ПОНИМАНИЯ УСТНОЙ РЕЧИ НЕОБХОДИМ СЕМАНТИКО-СИНТАКСИЧЕСКИЙ АНАЛИЗ:

  1. Поэзия 1790-1810-х годов
  2. СЕМАНТИЧЕСКАЯ ТЕМАТИКА В МАРКСИСТСКОЙ ГНОСЕОЛОГИИ 
  3. Часть 1. Структурные и коммуникативные свойства языка. Культура речи. Речевое общение
  4. ОБ ИДЕЙНЫХ И СТИЛИСТИЧЕСКИХ ПРОБЛЕМАХ И МОТИВАХ ЛИТЕРАТУРНЫХ ПЕРЕДЕЛОК И ПОДДЕЛОК
  5. О СВЯЗИ ПРОЦЕССОВ РАЗВИТИЯ ЛИТЕРАТУРНОГО ЯЗЫКА И СТИЛЕЙ ХУДОЖЕСТВЕННОЙ ЛИТЕРАТУРЫ
  6. РАЗВИТИЕ УЧЕНИЯ О ХУДОЖЕСТВЕННОЙ РЕЧИ В СОВЕТСКУЮ ЭПОХУ
  7. ПРОБЛЕМА ОБРАЗА АВТОРА В ХУДОЖЕСТВЕННОЙ ЛИТЕРАТУРЕ
  8. VII. ВРЕМЕННОЙ ФАКТОР В ЯЗЫКЕ И ЛИТЕРАТУРЕ
  9. ПОСТСКРИПТУМ (МАЙ 1967 Г.)
  10. Квета Кожевникова 0 СМЫСЛОВОМ СТРОЕНИИ СПОНТАННОЙ УСТНОЙ РЕЧИ)
  11. ПОЧЕМУ ДЛЯ ПОНИМАНИЯ УСТНОЙ РЕЧИ НЕОБХОДИМ СЕМАНТИКО-СИНТАКСИЧЕСКИЙ АНАЛИЗ
  12. ИССЛЕДОВАНИЕ ЯЗЫКА В ЕГО СОЦИАЛЬНОМ КОНТЕКСТЕ
  13. АКТУАЛЬНЫЕ ПРОБЛЕМЫ ПРИКЛАДНОЙ ЛИНГВИСТИКИ
  14. ГЛАВА 1 РУССКИЙ ЯЗЫК НАЧАЛА XXI ВЕКА В СВЕТЕ ПРОБЛЕМЫ ЯЗЫКОВОЙ КОНЦЕПТУАЛИЗАЦИИ МИРА