Фокусирующее взаимодействие.
Кроме обработки эллипсиса и других неграмматичных явлений, естественно возникающих в ходе работы интерактивного интерфейса, действительно надежная анализирующая система должна и сама инициировать определенные поддиалоги.
Необходимость в них возникает:— когда надежный анализатор выдвигает предположение, которое, вообще говоря, может не подтвердиться, и нуждается в согласовании своей догадки с пользователем;
— когда анализатор сталкивается с неоднозначностью, которую он не может разрешить сам, либо из-за неграмматичности входного высказывания (по вине пользователя), либо из-за какой-то принципиальной неоднозначности вполне правильного входного выражения;
— когда автоматическая обработка может оказаться слишком дорогостоящей или неопределенной по своему результату (например, при устранении комплексных лексических ошибок);
— или когда просто отсутствует требуемая информация.
Когда интерактивная система переходит от пассивной роли (ответы на запросы или ожидание отдельных команд пользователя) к более активной роли (поиск информации с помощью проясняющего диалога), она должна опираться на определенное решение вопроса о том, как организовать общение, чтобы поведение системы соответствовало коммуникативным ожиданиям и конвенциям ее партнера — человека. В каких случаях необходимы эксплицитные ответы, каким образом передать информацию так, чтобы она требовала минимального ответа пользователя, как удержать диалог в пределах предметной области системы и т. п.,— все эти вопросы должны решаться естественноязыковым интерфейсом, способным к диалогу со смешанной инициативой. Разбор всех этих проблем увел бы нас слишком далеко от темы надежного анализа, поэтому мы ограничимся рамками тех задач, которые характерны для ситуации преодоления коммуникативных неудач и которые описаны выше. Более полный анализ задач, возникающих при организации диалога в интерактивной системе, работающей на естественном языке, см.
в: Carbonell, 1982; Hayes and Reddy, 1983.Мы предлагаем четыре руководящих принципа для организации проясняющих диалогов:
— взаимодействие должно быть максимально фокусирующим;
— требуемый ответ пользователя должен быть максимально сжатым;
— взаимодействие должно вестись в терминах предметной области системы, а не в терминах лингвистических понятий, используемых внутри системы;
— число таких взаимодействий должно быть минимально.
Чтобы понять необходимость фокусирующего взаимодействия,
рассмотрим входное выражение
Add two fixed head ported disks to my order.
‘Добавьте к моему заказу два диска с портами и с фиксированными головками’.
Ошибка заключается в том, что пользователь пропустил dual ‘двойной’ между head и ported. Считая, что диски бывают только q одинарными или с двойными портами, и используя описанные выше стратегии преодоления неграмматичности на уровне предложений, анализатор должен прийти к такой интерпретации входного высказывания, которая является двузначной. Чтобы разрешить эту неоднозначность, необходимо взаимодействие с пользователем, но степень сфокусированности исходного вопроса на данной ошибке сильно влияет на степень легкости построения ответа пользователем и на объем работы системы, требуемый для интерпретации этого ответа. Нефокусирующим способом задания вопроса будет следующий:
Вы имеете в виду:
Добавьте к моему заказу два диска с одинарными портами
и с фиксированными головками?
или
Добавьте к моему заказу два диска с двойными портами и с
фиксированными головками?
Здесь пользователю, чтобы разобраться в возникшей трудности, приходится сравнивать два очень сходных варианта. Сравнения такого типа с целыб выявления возможных трудностей понимания требуют от пользователя лишних умственных усилий. Более того, неясно, как пользователю следует отвечать. Кроме ответа „второе", у него остается лишь возможность повторить входное сообщение целиком. Так как вопрос системы не сфокусирован на источнике неоднозначности, то пользователю неудобно просто ответить: „с двойными".
Такой ответ в высшей степени эллиптичен, но с точки зрения требуемой информации он полон. Он удовлетворяет также нашему второму принципу (необходимость максимально сжатого ответа).Поэтому гораздо лучше для разрешения неоднозначности задать пользователю такой вопрос:
Вы имеете в виду диск с ‘одинарными’ или с ‘двойными’ портами?
Этот вопрос точно сфокусирован на неоднозначности и поэтому не требует от пользователя никаких усилий, кроме выдачи информации, необходимой системе. Более того, он вызывает в высшей степени удобный ответ: „с двойными". Так как система сфокусирована на конкретной неоднозначности, она может порождать дискурсные ожидания этого и других подходящих эллиптичных фрагментов в ответе пользователя и таким образом распознавать их без особого труда.
Способность к порождению фокусирующих запросов для разрешения неоднозначности выдвигает определенные требования к репрезентации неоднозначной структуры внутри системы. Если неоднозначность не будет представлена максимально локализованно, то будет очень трудно порождать фокусирующие запросы. Если анализатор выявит неоднозначность в вышеприведенном примере в конце процесса обработки, обнаружив, что высказыванию могут быть приписаны две независимые структуры, то порождение фокусирующего запроса потребует трудного с вычислительной точки зрения процесса сравнения. Однако если неоднозначность представлена максимально локализованно, например как набор двух альтернативных заполнителей для одного и того же активизированного фрейма понятия „диск", встроенного во фрейм понятия „добавить к заказу", то порождение фокусирующего запроса не представляет трудностей — необходимо просто выдать перифразу падежного фрейма (фрейма понятия „диск") на один уровень выше, чем уровень, содержащий неоднозначность, причем вместо одного заполнителя неоднозначного падежа (падежа „количество портов") поставить дизъюнкцию. Более того, такая репрезентация образует отличную базу для интерпретации естественного эллиптичного ответа.
Как показывают Хейз и Карбонелл (Hayes and Carbonell, 1981), анализаторы, которые базируются на активизации падежных фреймов, особенно хорошо подходят для порождения репрезентаций такого типа неоднозначности.Другим тактическим приемом, который имеет отношение к фокусирующему взаимодействию и способствует гладкому протеканию проясняющих диалогов, является формулирование вопроса в терминах, которые способствуют более надежному пониманию последующей реплики пользователя. Так, при запросе пользователя:
Пожалуйста, к моему заказу добавьте два вращающихся устройства для хранения массивов в 300 мегабайт —
если в словаре системы нет сочетания „вращающееся устройство для хранения массивов", то реплика системы „Что такое вращающееся устройство для хранения массивов?" была бы неудачной, так как для пояснения своего входного выражения пользователь может выбрать столь же непонятные для системы термины. Гораздо лучше предоставить пользователю выбор между понятными для системы выражениями, которые могли бы заменить нераспознанный сегмент. В данном примере это означало бы предоставить пользователю выбор между всеми компонентами компьютера, которые допускают в качестве возможного заполнителя падежа выражение „300 мегабайт". Если такой список слишком велик, то по крайней мере система должна получить эксплицитное подтверждение того, что неизвестное выражение относится к компоненту компьютера, например, таким образом:
Под «вращающимся устройством хранения массивов» вы имеете в виду какой-то компонент компьютера?
Этим по крайней мере устанавливается, пытается ли пользователь сделать нечто, в чем ему может помочь система, или пользователь имеет неверные представления о возможностях системы.
Когда выяснится, что пользователь имел в виду „диск", система может добавить новое выражение в свои знания в качестве синонима диска; правда, предварительно система могла бы провести еще один проясняющий диалог с пользователем, в котором было бы установлено, что „диск" — это не просто один из видов „вращающегося устройства для хранения массивов", так же как не вполне корректно и обратное утверждение.
Если одно из этих двух понятий оказывается более общим, чем другое, то в семантическую иерархию вставляется новая единица, которая используется при последующем анализе (при этом, возможно, определяются основные различительные признаки двух понятий).Наш третий принцип устанавливает, что взаимодействие должно вестись в терминах предметной области дискурса, а не в терминах внутрисистемных лингвистических понятий. При нарушении этого правила пользователю пришлось бы, например, сравнивать два дерева анализа, представляющие две возможные интерпретации его входного выражения, или система должна была бы назвать ему имя внутреннего состояния при ATN-обработке, где произошла неудача. Такое взаимодействие требует лингвистической и программистской подготовки пользователя. Более того, это в высшей степени несфокусированный диалог, с точки зрения пользователя, от которого в этом случае требуется перевод машинного представления ошибки в представление, осмысленное в контексте решаемой задачи, переключая таким образом его внимание с выполнения конкретной задачи на лингвистические проблемы. Это вынужденное отклонение требует ненужных умственных усилий со стороны пользователя, и поэтому таких ходов следует избегать.
Последний принцип предписывает сокращать до минимума число корректирующих взаимодействий. Для пользователя весьма утомительно сталкиваться с вопросами о том, что он имел в виду, почти после каждой входной реплики, или, как предложил Кодд (С о d d, 1974), подтверждать перифразу каждого входного высказывания, прежде чем система предпримет какое-либо действие. Безусловно, существуют такие ситуации, когда пользователю необходимо задать прямой вопрос, а именно при отсутствии информации или при наличии действительной неоднозначности. Однако методики анализа, не требующие ответа пользователя, предпочтительнее в тех случаях, когда правильность предположений системы обладает высокой вероятностью или когда при разрешении неоднозначности, анафоры или эллипсиса одна из альтернатив намного предпочтительнее других.
Для минимизации числа необходимых реплик пользователя очень удобен метод повтора, упоминавшийся в разд. 4.1; этот метод позволяет в то же время отклонять любые необоснованные предположения системы. Весь фокус заключается в том, что система должна вставлять любые свои предположения в текущее выходное высказывание, чтобы пользователь мог видеть, что система поняла, исправить ошибки, если они есть, и никак не реагировать, если все правильно.Пользователь: Добавьте к моему заказу два вращающихся устройства для хранения массивов с двойными портами.
Система: Какую емкость памяти должны иметь эти два
диска с двойными портами?
Здесь система информирует пользователя о своем предположении относительно значения выражения „вращающееся устройство для хранения массивов" (возможное потому, что у дисков бывают двойные порты), не спрашивая его непосредственно, имел ли он в виду „диск".
В данном разделе были кратко обрисованы некоторые проблемы диалога, возникающие в ходе работы надежной анализирующей системы. Главное здесь заключается в том, что методы надежного анализа не ограничиваются только уровнем предложения. Напротив, они должны быть объединены с методами ведения диалога, которые в качестве конечного средства преодоления ошибок предусматривают активное взаимодействие с пользователем.
5.