<<
>>

Случайные составляющие.

Слова, случайные с точки зрения анализа входного высказы­вания, могут появляться по разным причинам.

— Правильные выражения, которые анализатор обрабатывать не может. Довольно часто пользователь интерфейса, действующего в ограниченной предметной области, употребляет слова, которые интерфейс не может понять по причине концептуальных или грамма­тических ограничений.

Иногда такие случайные выражения связаны с многословием или с формами вежливости:

Будьте добры, добавьте к моему заказу два диска с фикси­рованными головками и, если возможно, с двойными портами. Или, как было замечено в подготовительных экспериментах при раз­работке системы QUS (В о b г о w et al., 1977), пользователь может предложить нерелевантные (для системы) объяснения или обоснова­ния:

По-моему, мне надо увеличить емкость памяти, поэтому добавь­те к моему заказу два диска с двойными портами и с фикси­рованными головками.

Некоторые общераспространенные формы вежливости могут быть распознаны как таковые, но в большинстве случаев единственная разумная реакция — проигнорировать незнакомые выражения, пере­настроить анализатор на обработку распознаваемой части входного сообщения и если в результате получится семантически и синтакси­чески полная структура, то постулировать избыточность проигнори­рованного сегмента. В большинстве таких случаев следует про­информировать пользователя о том, что часть входного сообщения была проигнорирована.

— Прерванные и вновь начатые высказывания. Такие высказы­вания получаются тогда, когда люди начинают говорить одно, потом спохватываются и говорят другое:

Добавьте,— я имею в виду исключите,— один диск из моего зака­за.

Высказывания такого вида встречаются скорее в устных входных сообщениях, но аналогичный эффект можно наблюдать и при наборе входного сообщения на клавиатуре, когда пользователь забывает нажать клавишу стирания строки или клавишу стирания знака:

Добавьте исключите диск из моего заказа.

Добавить к моему заказу диск с одинарными портами с двойными

портами.

Здесь также наилучшая тактика — отбросить прерванный фрагмент, но идентификация и выделение правильного фрагмента требует стратегии типа той, которая описывается ниже.

— Незнакомые слова, заполняющие известные грамматические роли. Иногда пользователь употребляет непонятное выражение, синонимичное составляющей, которую система хорошо понимает:

Добавьте к моему заказу вращающееся устройство для хра­нения массивов, имеющее двойные порты.

В таком случае система может не знать, что «вращающееся устройство для хранения массивов» и «диск» — это синонимы. Данное явление затрагивает как проблему пропущенных, так и проб­лему случайных слов. Если система может породить однозначное ожидание относительно того, чем должен быть заполнен пробел, тогда она должна (при соответствующем подтверждении пользова­теля) записать незнакомое выражение в качестве синонима ожи­даемого слова. Если же система располагает некоторым ограничен­ным набором предсказаний относительно заполнения пробела, то она может спросить у пользователя, какое из них он имел в виду (если вообще в этом наборе найдется таковое), и после этого занести синоним в память для дальнейшего использования.

В тех случаях, когда в системе отсутствуют какие-либо сильные предсказа­ния, она обратится к пользователю с просьбой перифразировать непонятный фрагмент. Если система поймет перифразу, то она посту­лирует отношение синонимии, попросит подтверждения у пользова­теля и опять же занесет результаты в память для дальнейшего использования.

Применяемые здесь стратегии преодоления коммуникативных трудностей удивительно сходны с теми, которые нужны в случае пропуска слов. По существу, анализатор должен установить, что входное сообщение содержит как распознаваемые сегменты, так и неожиданные и нераспознаваемые слова и выражения, переме­жающиеся друг с другом. Сигналом неправильности (по крайней мере при анализе сообщения слева направо) служит тот же сиг­нал, что и при пропуске слов, а именно нарушение очередным словом в цепочке определенных ожиданий анализатора. Для раз­решения этой проблемы требуется, как и при пропуске слов, «отступить» и изучить вопрос о том, как последующие элементы сообщения соотносятся с уже построенной структурой. Основная особенность обработки случайных слов заключается в том, что слово, нарушившее ожидания, а возможно, и другие, следующие за ним слова могут не поддаваться включению в результирующую структуру. Более того, при обработке случайных слов в этой структуре вообще могут отсутствовать какие бы то ни было пробе­лы. Для анализаторов, имеющих возможность свободно изменять направление обработки, процесс обнаружения случайных выражений может оказаться более легким, так как мы можем обработать все слова, вкладывающиеся в структуру высказывания, а уже после этого заключить, что нераспознаваемые слова и выражения действительно являются случайными. Если после обработки всех распознаваемых единиц входной цепочки в полученной структуре остаются пробелы, то нераспознанный сегмент, возможно, вовсе и не является слу­чайным. Он может быть привязан к какому-то пробелу в постро­енной структуре, и предположительные синонимические отношения, рассмотренные выше, могут быть представлены пользователю для подтверждения.

Для прерванных высказываний существуют более конкретные методики, позволяющие выявить случайную часть входного сообще­ния:

— Если обнаружена последовательность из двух составляю­щих одного и того же синтаксического и семантического типа, тогда как допустима только одна, проигнорировать первую со­ставляющую. Так, два следующих друг за другом глагола, обо­значающих основные команды (например, как выше, в примере Add remove... ‘Добавить исключить...’), в случае анализатора, ис­пользующего падежные фреймы, будут активизировать одну и ту же падежную роль вершины предложения, что позволит проигнориро­вать первый из двух глаголов. Точно так же повторная активи­зация одного и того же преноминального падежа в падежном фрейме понятия "disk” будет сигнализировать о случае несовмести­мости, и первое из двух конкурирующих выражений будет проигнори­ровано. Для распознавания случаев повторения эквивалентных со­ставляющих можно было бы развить и другие стратегии обработки, однако, по-видимому, метод активизации падежных фреймов исклю­чительно хорошо подходит для этой цели.

— Распознавать эксплицитные корректирующие выражения, и если составляющая справа от такого выражения синтаксически и семантически тождественна составляющей слева от него, то заме­нить левую составляющую правой и продолжать обработку. Данная стратегия позволяет обрабатывать высказывания типа „Добавить я имею в виду удалить...", если „я имею в виду" будет распознано как корректирующее выражение.

— Для всех замещений выбирать минимальную составляющую. Например, в цепочке

Добавьте к моему заказу высокоскоростной накопитель на ленте,

то есть накопитель на диске

желательно выражение „накопитель на диске" подставить вместо выражения „накопитель на ленте", а не вместо более длинного вы­ражения „высокоскоростной накопитель на ленте", которое также является законной составляющей того же семантико-синтаксического типа. Такое предпочтение основывается исключительно на прагмати­ческих соображениях и эмпирических данных.

Кроме идентификации и игнорирования случайных составляю­щих во входной цепочке, надежный интерфейс должен сообщить пользователю, что именно проигнорировано, и перифразировать ту часть высказывания, которая распознана. В нераспознанной части может содержаться важная информация, и если эта информация не отразится в перифразе, то пользователь может вновь попытаться сформулировать свое сообщение. Исключения из этого правила возникают тогда, когда лишние составляющие распознаются как таковые. Например, так можно обрабатывать формы вежли­вости. Способность распознавать такие фразы-„шумы" де­лает их в некотором роде частью ожиданий анализатора, и тогда они не являются уже случайными для данной системы. Однако выделение их тем же способом, каким выделяются и собственно случайные входные выражения, дает то преимущество, что тогда они могут распознаваться в любом месте входной цепочки без усложне­ния нормального процесса обработки, то есть без включения особых ожиданий, связанных с поиском того места, где могут встретиться эти составляющие.

3.3.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Случайные составляющие.:

  1. Статья 422. Разглашение сведений военного характера, составляющих государственную тайну, или утрата документов либо материалов, содержащих такие сведения
  2. 2.3. Разработка методики оценки характеристик достоверности прн использовании алгоритмов диагностирования с учетом методической составляющей погрешности, погрешности измерения н дополнительной погрешности.
  3. 2.5.3 Случайной составляющей погрешности измерений
  4. 1.2.4 Исчерпывающее описание случайных процессов
  5. 1.2.5 Приближенное описание случайных процессов
  6. Неканоническая модель стационарного случайного сигнала(по Чернецкому)
  7. 2.3 Статистические способы описания взаимосвязей между составляющими объекта измерения
  8. 2.4 Математическое описание составляющих объекта измерения
  9. 2.4.2 Методы представления случайных компонент составляющих объекта измерения
  10. Методы оценки характеристик составляющих объекта измерения
  11. Определение числовых характеристик случайной величины суммы выплат страховщика
  12. Неполная индукция через отбор, исключающий случайности обобщения
  13. Зависимые и независимые случайные величины.
  14. Необходимость и случайност
  15. 1.2. Представления о семье и субъективная картина жизненного пути как составляющие образа мира современного подростка
  16. Многомерные случайные величины
  17. 5.1. Понятие о системе случайных величин.
  18. 5.8. Числовые характеристики системы нескольких случайных величин.