ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

СТРАТЕГИИ ПРЕОДОЛЕНИЯ КОММУНИКАТИВНЫХ НЕУДАЧ ПРИ АНАЛИЗЕ НЕГРАММАТИЧНЫХ ЯЗЫКОВЫХ ВЫРАЖЕНИЙ[4]1

(Университет Карнеги-Меллон, Отделение информатики)

Практические интерфейсы, работающие в режиме естественного языка, должны демонстрировать надежность даже в случае непра­вильно построенных входных сообщений пользователя.

В насто­ящей статье классифицируются различные типы грамматических отклонений и других подобных явлений на лексическом, сентен­циальном и диалоговом уровнях и предлагаются стратегии прео­доления коммуникативных неудач, связанных с выделенными типами отклонений. Такие стратегии дают набор инструментов для создания легко реализуемых компьютерных методов обработки неграмматич­ных (extragrammatical) выражений естественного языка в огра­ниченной предметной области. Некоторые из этих стратегий были опробованы в существующих анализаторах и доказали свою плодо­творность.

1. ВВЕДЕНИЕ

Любой надежный (robust) интерфейс, работающий на естест­венном языке [5], должен уметь обрабатывать входные высказы­вания, грамматические и семантические характеристики которых отклоняются от ожидаемых. К этому выводу пришли многие ис­следователи, начавшие разрабатывать специальные процедуры для обработки определенных классов неграмматичных конструкций. По­скольку надежные анализаторы должны иметь дело преимущест-

венно с такими входными выражениями, которые соответствуют заложенным в компьютер ожиданиям, то предпринимавшиеся уси­лия по преодолению неграмматичности обычно представляли собой расширение существовавших методов анализа. Наибольшую попу­лярность, пожалуй, получил подход, заключающийся в расширении синтаксически ориентированных методов анализа, использующих так называемые расширенные сети переходов (ATN) (Kwasny and Sondheimer, 1981; Weischedel and Sondheimer, 1984; Wei shed el and Black, 1980; Woods et al., 1976).

Другие исследователи предпринимали попытки обрабатывать неграмматичные входные выражения с помощью семантической грамматики, основанной на сетях (Hendrix, 1977), с помощью расширения возможностей метода подбора образцов, при котором разрешается частичное совпадение с образцом (Hayes and М о u- r ad і ап, 1981), с помощью метода актуализации концептуальных падежных фреймов (D ej о n g, 1979; Schank, Lebowitz, В і г n- baum, 1980) и с помощью подходов, использующих различные взаимодействующие стратегии обработки (С а г b о n е 11 and Hay­es, 1984; Carbonell et al., 1983; Hayes and Carbonell, 1981).

Учитывая основные результаты существующих работ, мы сосре­доточиваемся в данной статье на трех главных задачах:

1. Создать таксономию возможных грамматических отклонений, покрывающих широкий класс неправильностей, включая некоторые лексические и дискурсные явления (например, новые слова и эл­липсис в диалоге), которые могут обрабатываться теми же самыми механизмами, какие обнаруживают и обрабатывают собственно грамматические ошибки.

2. Наметить стратегии для обработки многих из этих откло­нений — некоторые подобные стратегии представлены в наших более ранних работах, некоторые сходны со стратегиями, предложенными другими исследователями, некоторые же никогда ранее не рассмат­ривались.

3. Установить, насколько легко эти стратегии могут быть исполь­зованы в соединении с несколькими существующими подходами к обработке неправильно построенных входных выражений, и про­анализировать причины возникающих несоответствий.

Конечным результатом должен быть синтез различных стра­тегий обработки правильно и неправильно построенных выражений (с группировкой по типу грамматических явлений), далее — оцен­ка того, насколько хорошо эти стратегии совместимы с сущест­вующими методами анализа неправильно построенных входных вы­ражений, и, наконец, получение набора характеристик, соблюдение которых желательно при любом анализе неправильно построенных входных выражений. Мы надеемся, что это поможет разработчи­кам надежных естественноязыковых интерфейсов в двух отноше­ниях:

1) они получат набор инструментов, эффективных в плане ком­пьютерного преодоления неграмматичности;

2) будет облегчен выбор основной методологии анализа, в рам­ках которой должны использоваться эти методы преодоления ком­муникативных неудач.

При определении степени совместимости методов преодоления неграмматичности и различных методов анализа сообщений мы избе­гаем вопроса о том, может ли данный метод преодоления неграм­матичности использоваться в сочетании с определенным методом анализа сообщений.

Ответ на такой вопрос почти всегда поло­жительный. Вместо этого мы сосредоточили внимание на том, на­сколько естественно соотносятся рассматриваемые стратегии прео­доления неграмматичности с различными подходами к анализу сообщений. В частности, мы рассматриваем вычислительную реали­зуемость стратегий преодоления и неграмматичности и выясняем, насколько легко может быть получена информация, необходимая для их использования в контексте различных подходов к анализу текста.

Надежный анализ сообщений необходим для интерфейсов, работающих на естественном языке, которым приходится иметь дело со спонтанной речью пользователя. Обычно такие интерфейсы оперируют в четко очерченной, но узкой предметной области, для которой могут быть установлены сильные семантические ограни­чения. По сравнению с ними системы обработки текста часто имеют дело с гораздо более широкими предметными областями. Однако необходимость в обработке неправильных выражений при анализе текста гораздо меньше, так как тексты обычно тщательно готовятся и редактируются, в результате чего устраняется боль­шинство грамматических ошибок и явлений, характерных для диа­лога и порождающих фрагментарные высказывания. Поэтому мы придаем особое значение таким методам преодоления неграмма­тичности, которые используют сильные семантические ограничения и зависят от них. В некоторых случаях неясно, пригодны ли пред­лагаемые методы для адекватной обработки неограниченного текста или дискурса, но, даже если они и непригодны, мы все же надеемся, что их использование в ограниченной ситуации поможет глубже осмыслить общую проблему анализа неправильно построенной речи.

Прежде чем продолжить обсуждение, необходимо пояснить тер­мин неграмматичность (extragrammaticality). Неграмматичные вы­ражения включают конструкции с явными грамматическими ошиб­ками, которые тем не менее могут быть семантически понятны, а также лексические трудности (например, орфографические ошиб­ки), нарушения семантических ограничений, высказывания, прием­лемые с общеграмматической точки зрения, но неприемлемые с точки зрения грамматики системы, эллипсис и ряд других явлений диалога, а также любые другие трудности, которые могут воз­никнуть при обработке отдельных высказываний.

Таким образом, неграмматичность определяется скорее в отношении возможностей конкретной системы, а не абсолютной внешней модели компе­тенции идеального пользователя.

Неграмматичность может возникать на различных уровнях: на лексическом уровне, на уровне предложения и диалога. В следу­ющих разделах поочередно рассматривается каждый из этих уров­ней, классифицируются возможные неграмматичные выражения и обсуждаются стратегии преодоления неграмматичности. В конце каждого раздела мы рассматриваем вопрос о том, насколько раз­личные стратегии преодоления неграмматичности совместимы с раз­личными подходами к анализу сообщений или в какой степени они могут опираться на эти подходы. В последнем разделе описыва­ются некоторые разработанные нами экспериментальные анализа­торы, обладающие свойством надежности. Многие наблюдения, пред­лагаемые нами в этой статье, были сделаны на основе нашего опы­та разработки этих анализаторов. Мы касаемся также результа­тов недавних исследований по проблеме интеграции многих рас­смотренных ранее стратегий преодоления неграмматичности в еди­ный надежный комплексный анализатор для интерпретации естест­венноязыковых выражений ограниченной предметной области.

2.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме СТРАТЕГИИ ПРЕОДОЛЕНИЯ КОММУНИКАТИВНЫХ НЕУДАЧ ПРИ АНАЛИЗЕ НЕГРАММАТИЧНЫХ ЯЗЫКОВЫХ ВЫРАЖЕНИЙ[4]1: