ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Случайные составляющие.

Слова, случайные с точки зрения анализа входного высказы­вания, могут появляться по разным причинам.

— Правильные выражения, которые анализатор обрабатывать не может. Довольно часто пользователь интерфейса, действующего в ограниченной предметной области, употребляет слова, которые интерфейс не может понять по причине концептуальных или грамма­тических ограничений.

Иногда такие случайные выражения связаны с многословием или с формами вежливости:

Будьте добры, добавьте к моему заказу два диска с фикси­рованными головками и, если возможно, с двойными портами. Или, как было замечено в подготовительных экспериментах при раз­работке системы QUS (В о b г о w et al., 1977), пользователь может предложить нерелевантные (для системы) объяснения или обоснова­ния:

По-моему, мне надо увеличить емкость памяти, поэтому добавь­те к моему заказу два диска с двойными портами и с фикси­рованными головками.

Некоторые общераспространенные формы вежливости могут быть распознаны как таковые, но в большинстве случаев единственная разумная реакция — проигнорировать незнакомые выражения, пере­настроить анализатор на обработку распознаваемой части входного сообщения и если в результате получится семантически и синтакси­чески полная структура, то постулировать избыточность проигнори­рованного сегмента. В большинстве таких случаев следует про­информировать пользователя о том, что часть входного сообщения была проигнорирована.

— Прерванные и вновь начатые высказывания. Такие высказы­вания получаются тогда, когда люди начинают говорить одно, потом спохватываются и говорят другое:

Добавьте,— я имею в виду исключите,— один диск из моего зака­за.

Высказывания такого вида встречаются скорее в устных входных сообщениях, но аналогичный эффект можно наблюдать и при наборе входного сообщения на клавиатуре, когда пользователь забывает нажать клавишу стирания строки или клавишу стирания знака:

Добавьте исключите диск из моего заказа.

Добавить к моему заказу диск с одинарными портами с двойными

портами.

Здесь также наилучшая тактика — отбросить прерванный фрагмент, но идентификация и выделение правильного фрагмента требует стратегии типа той, которая описывается ниже.

— Незнакомые слова, заполняющие известные грамматические роли. Иногда пользователь употребляет непонятное выражение, синонимичное составляющей, которую система хорошо понимает:

Добавьте к моему заказу вращающееся устройство для хра­нения массивов, имеющее двойные порты.

В таком случае система может не знать, что «вращающееся устройство для хранения массивов» и «диск» — это синонимы. Данное явление затрагивает как проблему пропущенных, так и проб­лему случайных слов. Если система может породить однозначное ожидание относительно того, чем должен быть заполнен пробел, тогда она должна (при соответствующем подтверждении пользова­теля) записать незнакомое выражение в качестве синонима ожи­даемого слова. Если же система располагает некоторым ограничен­ным набором предсказаний относительно заполнения пробела, то она может спросить у пользователя, какое из них он имел в виду (если вообще в этом наборе найдется таковое), и после этого занести синоним в память для дальнейшего использования. В тех случаях, когда в системе отсутствуют какие-либо сильные предсказа­ния, она обратится к пользователю с просьбой перифразировать непонятный фрагмент. Если система поймет перифразу, то она посту­лирует отношение синонимии, попросит подтверждения у пользова­теля и опять же занесет результаты в память для дальнейшего использования.

Применяемые здесь стратегии преодоления коммуникативных трудностей удивительно сходны с теми, которые нужны в случае пропуска слов. По существу, анализатор должен установить, что входное сообщение содержит как распознаваемые сегменты, так и неожиданные и нераспознаваемые слова и выражения, переме­жающиеся друг с другом. Сигналом неправильности (по крайней мере при анализе сообщения слева направо) служит тот же сиг­нал, что и при пропуске слов, а именно нарушение очередным словом в цепочке определенных ожиданий анализатора.

Для раз­решения этой проблемы требуется, как и при пропуске слов, «отступить» и изучить вопрос о том, как последующие элементы сообщения соотносятся с уже построенной структурой. Основная особенность обработки случайных слов заключается в том, что слово, нарушившее ожидания, а возможно, и другие, следующие за ним слова могут не поддаваться включению в результирующую структуру. Более того, при обработке случайных слов в этой структуре вообще могут отсутствовать какие бы то ни было пробе­лы. Для анализаторов, имеющих возможность свободно изменять направление обработки, процесс обнаружения случайных выражений может оказаться более легким, так как мы можем обработать все слова, вкладывающиеся в структуру высказывания, а уже после этого заключить, что нераспознаваемые слова и выражения действительно являются случайными. Если после обработки всех распознаваемых единиц входной цепочки в полученной структуре остаются пробелы, то нераспознанный сегмент, возможно, вовсе и не является слу­чайным. Он может быть привязан к какому-то пробелу в постро­енной структуре, и предположительные синонимические отношения, рассмотренные выше, могут быть представлены пользователю для подтверждения.

Для прерванных высказываний существуют более конкретные методики, позволяющие выявить случайную часть входного сообще­ния:

— Если обнаружена последовательность из двух составляю­щих одного и того же синтаксического и семантического типа, тогда как допустима только одна, проигнорировать первую со­ставляющую. Так, два следующих друг за другом глагола, обо­значающих основные команды (например, как выше, в примере Add remove... ‘Добавить исключить...’), в случае анализатора, ис­пользующего падежные фреймы, будут активизировать одну и ту же падежную роль вершины предложения, что позволит проигнориро­вать первый из двух глаголов. Точно так же повторная активи­зация одного и того же преноминального падежа в падежном фрейме понятия "disk” будет сигнализировать о случае несовмести­мости, и первое из двух конкурирующих выражений будет проигнори­ровано.

Для распознавания случаев повторения эквивалентных со­ставляющих можно было бы развить и другие стратегии обработки, однако, по-видимому, метод активизации падежных фреймов исклю­чительно хорошо подходит для этой цели.

— Распознавать эксплицитные корректирующие выражения, и если составляющая справа от такого выражения синтаксически и семантически тождественна составляющей слева от него, то заме­нить левую составляющую правой и продолжать обработку. Данная стратегия позволяет обрабатывать высказывания типа „Добавить я имею в виду удалить...", если „я имею в виду" будет распознано как корректирующее выражение.

— Для всех замещений выбирать минимальную составляющую. Например, в цепочке

Добавьте к моему заказу высокоскоростной накопитель на ленте,

то есть накопитель на диске

желательно выражение „накопитель на диске" подставить вместо выражения „накопитель на ленте", а не вместо более длинного вы­ражения „высокоскоростной накопитель на ленте", которое также является законной составляющей того же семантико-синтаксического типа. Такое предпочтение основывается исключительно на прагмати­ческих соображениях и эмпирических данных.

Кроме идентификации и игнорирования случайных составляю­щих во входной цепочке, надежный интерфейс должен сообщить пользователю, что именно проигнорировано, и перифразировать ту часть высказывания, которая распознана. В нераспознанной части может содержаться важная информация, и если эта информация не отразится в перифразе, то пользователь может вновь попытаться сформулировать свое сообщение. Исключения из этого правила возникают тогда, когда лишние составляющие распознаются как таковые. Например, так можно обрабатывать формы вежли­вости. Способность распознавать такие фразы-„шумы" де­лает их в некотором роде частью ожиданий анализатора, и тогда они не являются уже случайными для данной системы. Однако выделение их тем же способом, каким выделяются и собственно случайные входные выражения, дает то преимущество, что тогда они могут распознаваться в любом месте входной цепочки без усложне­ния нормального процесса обработки, то есть без включения особых ожиданий, связанных с поиском того места, где могут встретиться эти составляющие.

3.3.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Случайные составляющие.: