ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн

Пропущенные составляющие.

Нередко пользователь естественноязыкового интерфейса, либо по ошибке, либо желая быть кратким, пропускает слова во входном высказывании. Степень преодоления такого вида неграмматичности, безусловно, зависит от того, какие слова пропущены.

Например, в цепочке

Add two fixed head dual ported disks to my order

‘Добавьте к моему заказу два диска с двойными портами и с фиксированными головками’

ошибка, связанная с пропуском слова dual ‘двойной’, будет неустранима, поскольку все диски имеют порты, а специальная информация о числе портов будет отсутствовать. С другой стороны, если будет пропущено слово ported, в предложении по-прежнему будет сохраняться вся существенная информация (единственное, что у дисков может быть двойным, это число портов), и данное слово можно будет восстановить. Обычно (хотя и не всегда) можно также преодолеть нарушения, связанные с пропуском функциональных слов типа предлогов и определителей. На практике большинство пропущенных слов является для смысла предложения избыточным, и пользователь опускает их сознательно, пытаясь быть кратким или выражаться, «как компьютер» (например: Copy new files my directory ‘Скопировать новые массивы мой справочник’). Отсюда следует, что методы, заполняющие пропуски с помощью семантики, по-види- мому, более эффективны, чем стратегии, не использующие сведений о семантике предметной области.

В общем случае для решения проблемы пропущенных слов должен применяться процесс анализа, формирующий ту структуру, которая была бы получена в случае присутствия этих слов во входной цепочке. Если информация, содержащаяся в пропущенных словах, не является избыточной (как выше, в случае с dual), тогда эта структура будет содержать пробелы; однако она будет передавать общий смысл намерения пользователя, и пробелы смогут быть заполнены с помощью вывода умозаключений или (что более практично и надежно) на основе взаимодействия с пользователем, сфокусированного на конкретных пробелах в контексте глобальной структуры, полученной в результате анализа (дальнейшее обсуждение методов сфокусированного взаимодействия см.

в разд. 4.2).

Ошибка, связанная с пропуском какого-то слова, постулируется в процессе анализа в том случае, когда нарушаются предсказания (синтаксические или семантические) относительно того, что должно находиться на определенном месте во входном высказывании. Для того чтобы удостовериться, что ошибка действительно заключается в пропуске слова, и найти структуру разбора, соответствующую намерению пользователя, анализатор должен «отступить» и рассмотреть весь контекст разбора в целом. Система должна временно игнорировать нереализованные ожидания и их вклад в общую структуру высказывания, но зато попытаться удовлетворить некоторые другие свои ожидания на основе обработки других частей входного высказывания и объединить результаты их анализа с уже обработанными составляющими. При обработке приведенного выше примера слева направо (с пропущенным dual) это означало бы следующее: если анализатор встретил слово ported, он должен заметить, что, хотя он и ожидал встретить начальную часть модификатора, подходящего для характеристики какого-то компонента ЭВМ (будем считать, что используются семантические ожидания), на самом деле он встретил последнюю часть модификатора, характеризующего диск, и поэтому может продолжить анализ высказывания так, как если бы модификатор присутствовал в полном виде. Анализатор, обладающий большой свободой в выборе направления обработки, мог бы сначала найти слово disk и затем более целенаправленно искать подходящие для дисков определители. Опять же факт наличия во входном сообщении на месте полного определителя лишь его части может служить основанием для догадки о том, что пользователь хотел употребить полный определитель диска.

Другой подход к обсуждаемой проблеме заключается в попытке определить границы вынужденного пробела во входном высказывании, соотнести его с пробелом в построенной анализатором структуре (заполнив этот пробел, если он определен однозначно) и перестроить механизм анализа так, как будто пробела не существовало.

Такая перестройка может осуществляться как «анализ сверху вниз», при котором на основе уже построенной анализатором структуры можно сделать предположение о других ожидаемых составляющих и затем попытаться обнаружить их во входной цепочке. Другая возможность — «анализ снизу вверх», в ходе которого распознаются еще не проанализированные элементы входного сообщения и либо включаются в уже построенную структуру, либо для них отыскивается структура более высокого уровня, которая могла бы включить и эти элементы, и уже построенную структуру. Последний подход является основным, когда пропущены или искажены конструктивные слова.

Какой из подходов — сверху вниз или снизу вверх — лучше в каждом конкретном случае, будет зависеть от того, какую часть входной цепочки успел распознать анализатор до столкновения с пропущенным словом. Если разбор производится слева направо и пробел появляется ближе к началу входной цепочки, то скорее всего к этому моменту построена лишь небольшая часть структуры высказывания, поэтому подход снизу вверх, вероятно, даст лучшие результаты. Точно так же, если пропущенное слово само задает структуру высшего уровня (например add ‘добавить’ в примере, приведенном выше), необходим тот же подход снизу вверх. С другой стороны, если пропущенное слово соответствует узлу на нижних уровнях структуры высказывания и пробел оказывается ближе к концу высказывания или же анализатор не привязан к строго последовательной обработке слева направо, то, по-видимому, гораздо более эффективным будет подход сверху вниз. В общем случае анализатор должен быть готов к применению и того, и другого метода.

3.2.

<< | >>

↑

Источник: Б.Ю. Городецкий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городецкого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Пропущенные составляющие.:

- Английский язык - Диалектология - Иностранные языки - История русского языка - Лексикология. Фразеология. Лексикография - Лингвокультура - Общая лингвистика - Общее языкознание - Русская филология - Русский язык - Синтаксис - Словообразование и морфология - Стилистика и культура речи - Украинский язык - Фонетика. Графика. Орфография -

- Архитектура и строительство - Безопасность жизнедеятельности - Библиотечное дело - Бизнес - Биология - Военные дисциплины - География - Геология - Демография - Диссертации России - Естествознание - Журналистика и СМИ - Информатика, вычислительная техника и управление - Искусствоведение - История - Культурология - Литература - Маркетинг - Математика - Медицина - Менеджмент - Педагогика - Политология - Право России - Право України - Промышленность - Психология - Реклама - Религиоведение - Социология - Страхование - Технические науки - Учебный процесс - Физика - Философия - Финансы - Химия - Художественные науки - Экология - Экономика - Энергетика - Юриспруденция - Языкознание -