ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Пропущенные составляющие.

Нередко пользователь естественноязыкового интерфейса, либо по ошибке, либо желая быть кратким, пропускает слова во входном высказывании. Степень преодоления такого вида неграмматичности, безусловно, зависит от того, какие слова пропущены.

Например, в цепочке

Add two fixed head dual ported disks to my order

‘Добавьте к моему заказу два диска с двойными портами и с фиксированными головками’

ошибка, связанная с пропуском слова dual ‘двойной’, будет неустра­нима, поскольку все диски имеют порты, а специальная информация о числе портов будет отсутствовать. С другой стороны, если будет пропущено слово ported, в предложении по-прежнему будет сохра­няться вся существенная информация (единственное, что у дисков может быть двойным, это число портов), и данное слово можно будет восстановить. Обычно (хотя и не всегда) можно также преодолеть нарушения, связанные с пропуском функциональных слов типа предлогов и определителей. На практике большинство пропу­щенных слов является для смысла предложения избыточным, и поль­зователь опускает их сознательно, пытаясь быть кратким или выра­жаться, «как компьютер» (например: Copy new files my directory ‘Скопировать новые массивы мой справочник’). Отсюда следует, что методы, заполняющие пропуски с помощью семантики, по-види- мому, более эффективны, чем стратегии, не использующие сведений о семантике предметной области.

В общем случае для решения проблемы пропущенных слов должен применяться процесс анализа, формирующий ту структуру, которая была бы получена в случае присутствия этих слов во входной цепочке. Если информация, содержащаяся в пропущенных словах, не является избыточной (как выше, в случае с dual), тогда эта структура будет содержать пробелы; однако она будет передавать общий смысл намерения пользователя, и пробелы смогут быть заполнены с помощью вывода умозаключений или (что более прак­тично и надежно) на основе взаимодействия с пользователем, сфокусированного на конкретных пробелах в контексте глобальной структуры, полученной в результате анализа (дальнейшее обсужде­ние методов сфокусированного взаимодействия см.

в разд. 4.2).

Ошибка, связанная с пропуском какого-то слова, постулируется в процессе анализа в том случае, когда нарушаются предсказания (синтаксические или семантические) относительно того, что должно находиться на определенном месте во входном высказывании. Для того чтобы удостовериться, что ошибка действительно заключается в пропуске слова, и найти структуру разбора, соответствующую намерению пользователя, анализатор должен «отступить» и рассмот­реть весь контекст разбора в целом. Система должна временно иг­норировать нереализованные ожидания и их вклад в общую структу­ру высказывания, но зато попытаться удовлетворить некоторые дру­гие свои ожидания на основе обработки других частей входного высказывания и объединить результаты их анализа с уже обра­ботанными составляющими. При обработке приведенного выше при­мера слева направо (с пропущенным dual) это означало бы сле­дующее: если анализатор встретил слово ported, он должен за­метить, что, хотя он и ожидал встретить начальную часть моди­фикатора, подходящего для характеристики какого-то компонента ЭВМ (будем считать, что используются семантические ожидания), на самом деле он встретил последнюю часть модификатора, ха­рактеризующего диск, и поэтому может продолжить анализ выска­зывания так, как если бы модификатор присутствовал в полном виде. Анализатор, обладающий большой свободой в выборе направ­ления обработки, мог бы сначала найти слово disk и затем более целенаправленно искать подходящие для дисков определители. Опять же факт наличия во входном сообщении на месте полного опре­делителя лишь его части может служить основанием для догадки о том, что пользователь хотел употребить полный определитель диска.

Другой подход к обсуждаемой проблеме заключается в попытке определить границы вынужденного пробела во входном высказы­вании, соотнести его с пробелом в построенной анализатором структу­ре (заполнив этот пробел, если он определен однозначно) и перестро­ить механизм анализа так, как будто пробела не существовало.

Та­кая перестройка может осуществляться как «анализ сверху вниз», при котором на основе уже построенной анализатором структуры можно сделать предположение о других ожидаемых составляющих и затем попытаться обнаружить их во входной цепочке. Другая возможность — «анализ снизу вверх», в ходе которого распознаются еще не проанализированные элементы входного сообщения и либо включаются в уже построенную структуру, либо для них отыски­вается структура более высокого уровня, которая могла бы включить и эти элементы, и уже построенную структуру. Последний подход является основным, когда пропущены или искажены конструктивные слова.

Какой из подходов — сверху вниз или снизу вверх — лучше в каждом конкретном случае, будет зависеть от того, какую часть входной цепочки успел распознать анализатор до столкновения с пропущенным словом. Если разбор производится слева направо и пробел появляется ближе к началу входной цепочки, то скорее всего к этому моменту построена лишь небольшая часть структуры высказывания, поэтому подход снизу вверх, вероятно, даст лучшие результаты. Точно так же, если пропущенное слово само задает структуру высшего уровня (например add ‘добавить’ в примере, приведенном выше), необходим тот же подход снизу вверх. С другой стороны, если пропущенное слово соответствует узлу на нижних уровнях структуры высказывания и пробел оказывается ближе к концу высказывания или же анализатор не привязан к строго после­довательной обработке слева направо, то, по-видимому, гораздо более эффективным будет подход сверху вниз. В общем случае анализатор должен быть готов к применению и того, и другого метода.

3.2.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Пропущенные составляющие.: