Эллипсис.
Эллипсис — многоаспектное явление. Его проявления весьма разнообразны и широки, и стратегии преодоления многих типов эллипсиса пока еще не разработаны. Тем не менее это в то же время весьма распространенное явление, и любой интерфейс, предназначенный для практического общения с реальными пользователями, должен уметь решать эту проблему.
Эмпирические наблюдения показали, что пользователи естественноязыковых интерфейсов употребляют эллипсис и другие средства сокращения (например, анафору, укороченные именные группы с определенной референцией, шифроподобные выражения с опущением семантически избыточных слов и лексические аббревиатуры) с пугающей частотой (Carbonell, 1983). Результаты наших эмпирических наблюдений можно суммировать следующим образом.Принцип сжатости. Пользователи интерфейсов, работающих в режиме естественного языка, настаивают на сжатости своих высказываний независимо от задачи, формы общения, умения печатать или инструкций, призывающих к противному, отказываясь жертвовать гибкостью выражений, присущей общению на естественном языке.
В общих чертах эллипсисы можно подразделить на внутри- сентенциальные и межсентенциальные, при этом в практических интерфейсах, работающих на естественном языке, преобладают в основном эллипсисы второго типа. Внутрисентенциальный эллипсис наиболее часто встречается в сочинительных предложениях, таких, как:
John likes oranges and Mary apples.
‘Джон любит апельсины, а Мэри — яблоки’.
Нередко данный тип эллипсиса поддается обнаружению только на основе семантики (ведь не существует осмысленного сочетания существительное — существительное: Mary apples). В следующем предложении с такой же синтаксической структурой наиболее предпочтительной оказывается интерпретация, не содержащая эллипсиса:
John likes oranges and Macintosh apples.
‘Джон любит апельсины и яблоки макинтош’.
Нам неизвестна общая стратегия интерпретации данного класса внутрисентенциального эллипсиса, которая доказала бы свою действенность. Интересным, но пока неопробованным подходом представляется следующий: применить описанные ниже стратегии к анализу сложного предложения, но при этом рассматривать каждое сочиненное предложение как отдельное высказывание, правда, с некоторыми расширениями, чтобы использовать параллелизм синтаксической и семантической структур между соответствующими составляющими этих сочиненных предложений.
Можно выделить несколько форм межсентенциального эллипсиса.
— Развитие (Elaboration). Эллиптичный фрагмент в высказывании того или другого собеседника может быть развитием предшествующего высказывания. Такое развитие может быть осуществлено любым из двух говорящих, но обычно это делает второй собеседник, как в следующем примере:
Пользователь: Дайте мне диск с большой емкостью.
Система: С двойными портами?
Пользователь: Да, и универсальный частотный адаптер.
— Повтор (Echo). Фрагмент высказывания первого говорящего повторяется вторым говорящим. Как показано более полно в Hayes and Reddy, 1983, это позволяет второму собеседнику подтвердить свое понимание высказывания первого собеседника, но при этом не требовать от него ответного эксплицитного подтверждения.
Пользователь: Добавить двойной диск к заказу.
Система: Диск с двойными портами. С какой емкостью памяти?
Если бы, с другой стороны, система эксплицитно задала вопрос „Вы имеете в виду диск с двойными портами?", то пользователю по правилам коммуникации пришлось бы давать ответ. Однако и в том, и в другом случае пользователю разрешается исправлять (или не исправлять) любые ошибки в понимании, обнаруживаемые системой. Иногда, как в примере, приведенном ниже, повтор может быть также выражением удивления. Вообще же эта форма эллипсиса гораздо чаще встречается в устной речи, чем в общении через клавиатуру, однако необходимость в том, чтобы надежная анализирующая система получала подтверждение своих предположений без особого нарушения хода диалога, делает эту форму эллипсиса в общем случае весьма полезной для интерфейсов, работающих на естественном языке (см.
разд. 4.2).— Исправление. Эллиптичный фрагмент замещает часть пред- ществующего высказывания, содержащую ошибку. Исправление осуществляется тремя стандартными способами.
• Первый говорящий может немедленно сам себя поправить (проблема во многом сходна с повторяющимися сегментами, упоминаемыми в разд. 3.2).
• Второй говорящий может предложить исправление (помеченное именно как исправление, или просто эллиптичный фрагмент в вопросительной форме).
• Или: первый говорящий может поправить сам себя в ответ на уточняющий запрос второго говорящего. Уточняющий запрос может быть в форме прямого вопроса, констатации непонимания или повторения вызывающей сомнения части входного высказывания (тем самым могут объединяться две формы эллипсиса, как показано ниже).
Пользователь: Дайте мне накопитель на ленте с двойными
портами.
Система: Накопитель на ленте с двойными портами?
Пользователь: Извините, накопитель на дисках с двойными
портами.
— Переформулировка. Часть старого высказывания переформулируется, причем имеется в виду, что новая формулировка и должна войти в интерпретацию высказывания на место старой составляющей. По-видимому, это наиболее распространенная форма эллипсиса и единственная, для которой разработаны легко осуществимые вычислительные стратегии. Ниже все примеры относятся к этому типу.
Система LIFER/LADDER (Hendrix, 1977; Sacerdoti, 1977) имеет дело с ограниченной формой эллипсиса-переформулировки. Алгоритм обработки эллипсиса в LIFER производит анализ фрагментарного выражения, если оно совпадает с частичным деревом анализа, полученным из предшествующего (в диалоге) полного дерева путем (а) выбора поддерева, соответствующего некоторому непрерывному сегменту в предшествующей реплике, и (б) возможного отбрасывания одной или более из его ветвей. Если фрагментарное входное выражение совпадает с таким частичным деревом анализа, то предполагается, что оно является эллипсисом- переформулировкой, и отсутствующие элементы частичного дерева анализа заполняются на основе предшествующего полного дерева анализа.
В частности, если весь фрагмент покрывается одной грамматической категорией и данная категория присутствовала в последнем обработанном запросе, то алгоритм обработки эллипсиса непосредственно заменяет значение данной категории в последнем построенном дереве на указанный фрагмент. Например:Пользователь: Какова длина „Кеннеди"?
Система: 200 метров.
Пользователь: Самого быстрого авианосца?
Так как „Кеннеди" и „самый быстрый авианосец44 подходят под семантическую категорию (корабль), то второе выражение разрешается подставить на место первого. Заметим, что чисто синтаксический анализ недостаточно избирателен, чтобы произвести соответствующую замену. „Самый быстрый авианосец" — это именная группа, а в исходном предложении представлены три именные группы: „длина", „длина «Кеннеди»" и „Кеннеди44.
Однако жесткая структура семантической грамматики доказала свою неспособность обрабатывать некоторые распространенные формы переформулировочного эллипсиса. Формализм семантической грамматики накладывает на обрабатываемые сообщения слишком сильные ограничения, для того чтобы стратегия простого замещения могла быть эффективно применена в тех случаях, когда имеется более одного фрагмента, когда имеется обрамляющий фрагмент (такой, как „самых маленьких с двойными портами" в одном из примеров ниже) или когда во фрагменте не сохраняется линейный порядок. Напротив, замещение на основе падежного фрейма представляет свободу для обработки таких эллиптичных фрагментов.
Следующие примеры иллюстрируют те виды эллипсиса, которые обрабатываются с помощью падежных фреймов. Предполагается, что каждый фрагмент следует непосредственно за исходным запросом. Отметим также, что мы используем здесь термин, „падежный фрейм" как в смысле фреймов именных групп, так и в смысле фреймов предложений; в данных примерах активизируется фрейм понятия „диск" с такими падежами, как емкость памяти, число портов и т. д.
ИСХОДНЫЙ ЗАПРОС:
„Какова стоимость трех самых больших дисков с одинарными
портами и с фиксированными средствами доступа?" ПОСЛЕДУЮЩИЕ ЗАПРОСЫ:
„Скорость?"
„Двух самых маленьких?"
„А цена двух самых маленьких?"
„А также самых маленьких с двойными портами?"
„Скорость с двумя портами?"
„Диска с двумя портами?"
В этих представительных примерах не помогает пунктуация и очень ограничено применение чистого синтаксиса. Так, последние три фразы имеют сходную синтаксическую структуру (две последние — вообще неразличимы), но каждая из них требует осуществления особой замены в исходном запросе.
Система DYPAR-II (разбираемая в разд. 5.2) обрабатывает эллипсис как раз с помощью падежных фреймов. Здесь мы представляем основной метод разрешения эллипсиса на основе падежных фреймов, используемый системой. По-видимому, этот метод по разнообразию обрабатываемых форм эллипсиса объединяет сферы действия системы LIFER/LADDER (Hendrix, 1977; Sacerdoti, 1977) и модуль обработки эллипсиса системы PLANES (Waltz and Goodman, 1977). Хотя с помощью этого метода и можно обработать большинство известных нам форм перефор- мулировочного эллипсиса, его нельзя рассматривать как общее лингвистическое решение проблемы эллипсиса.
Рассмотрим следующий пример:
>What is the size of the 3 largest single port fixed media disks?
‘Каков размер 3 самых больших дисков с одинарными портами
и с фиксированными средствами доступа?’
>disks with two ports?
‘дисков с двойными портами?’
Заметим, что данный вид эллипсиса невозможно обработать каким- либо стандартным способом, если предшествующий запрос хранится дословно или в виде дерева анализа в терминах семантической грамматики. Выражение Disks with two ports в лучшем случае будет соответствовать некоторой нетерминальной категории (дескриптор-диска) (disk-descriptor) и, следовательно, в соответствии с алгоритмом в LIFER оно заменит все выражение single port fixed media disks, имеющее признак (дескриптор-диска) в построенном дереве анализа исходного запроса.
Однако неформальный опрос потенциальных пользователей показывает, что предпочтительная интерпретация эллипсиса требует сохранения атрибута MEDIA ‘СРЕДСТВА ДОСТУПА’, представленного в исходном запросе. Отсюда следует, что процесс разрешения эллипсиса требует более тонкого метода замены, чем простая подстановка значений нетерминальных категорий высшего уровня, взятых из эллиптичного сообщения, вместо соответствующих значений нетерминальных категорий в дереве анализа предшествующего высказывания.Принимая во внимание тот факт, что анализ предложения и описание объекта на основе падежных фреймов отражают стандартным способом релевантные семантические отношения между составляющими, можно предложить следующие принципы объединения частично актуализированного падежного фрейма с предшествующим падежным фреймом:
— Если некоторый семантический падеж актуализирован и в исходном запросе, и в эллиптичном фрагменте, то следует использовать в качестве заполнителя падежной роли то выражение, которое стоит в эллиптичном фрагменте. Так, в нашем примере выражение with two ports подставляется вместо выражения single port, так как оба являются различными значениями одной и той же падежной роли, несмотря на их различные синтаксические роли. (Single port в исходном запросе — адъективная конструкция, a with two ports в эллиптичном фрагменте — постноминальное определение.)
— Сохранить все падежи исходной структуры, если им эксплицитно не противоречит новая информация в эллиптичном фрагменте. Например, словосочетание fixed media сохраняется как часть описания дисков; то же относится и ко всем падежам сентенциального уровня в исходном запросе; например, сохраняются количественный определитель и порождающий атрибут запроса (size).
— Если какой-то падеж указан в эллиптичном фрагменте, но отсутствует в исходном запросе, то взять заполнитель этого падежа из эллиптичного фрагмента. Например, в нижеследующем примере при разрешении эллипсиса дескриптор „с фиксированными головками" вставляется в качестве падежа „СРЕДСТВА ДОСТУПА" в именной падежный фрейм понятия „диск":
> Какие диски совместимы с компьютером VAX 11-780?
> Какие-либо совместимые диски с фиксированными головками?
— Если в эллиптичном фрагменте упоминается новый падежный фрейм, то происходит полное замещение, подобное замещению при опоре на концепцию семантической грамматики. Так, если бы за последним примером следовал вопрос „Как насчет накопителей на ленте?", то выражение „накопители на ленте" было бы подставлено вместо выражения „диски с фиксированными головками", а не вместо слова „диски", поскольку в последнем случае получилось бы семантически аномальное выражение „накопители на ленте с фиксированными головками". В этих примерах решающую роль играют семантические отношения, представленные в падежном фрейме и отсутствующие в дереве анализа, построенном на принципах семантической грамматики.
Основным преимуществом метода актуализации падежных фреймов при разрешении эллипсиса является возможность сопоставления соответствующих падежей, а не поверхностных цепочек, синтаксических структур или неканонических репрезентаций. Вследствие этого разработка механизма разрешения эллипсиса такой же мощности на основе семантической грамматики была бы чрезвычайно затруднена. Основная проблема заключается в том, что в семантических грамматиках синтаксис и семантика переплетаются таким запутанным образом, что для одной и той же семантической сущности приходится использовать несколько репрезентаций. Например, порядок маркированных падежей во входной цепочке никак не отражает различий в значении [11], тогда как порядок следования немаркированных падежей в поверхностной структуре отражает такие различия. В семантической же грамматике деревья анализа, построенные на основе маркированных падежей с разным порядком следования, могут различаться; поэтому знания о том, что поверхностное расположение немаркированных падежей значимо, а расположение маркированных падежей не значимо, должны содержаться в программе разрешения эллипсиса. Это весьма неестественное хранилище для такой базовой информации. Более того, чтобы достичь описанной выше операциональной силы падежных фреймов, разрешение эллипсиса, основывающееся на деревьях анализа в соответствии с принципами семантической грамматикализации, также должно предусматривать выявление семантической эквивалентности адъективных и постноминальных конструкций (которые соответствуют различным нетерминальным категориям и различным относительным позициям в деревьях анализа). Это необходимо для того, чтобы можно было эффективно использовать такие эллиптичные структуры, как "a disk with 1 port” (‘диск с одним портом’) для замены сегмента ‘‘dual-port” (‘двойной порт’) в выражении ‘‘...dual-port fixed-media disk...”, если это выражение является частью более раннего высказывания. Один из способов достижения такого результата — это заранее выявить конкретные нетерминальные единицы, которые могут замещать друг друга в определенных контекстах, то есть фактически сгруппировать неканонические репрезентации в контекстно зависимые классы семантической эквивалентности. Однако этот процесс потребовал бы составления вручную больших ассоциативных таблиц или других подобных структур данных, а это дорогая цена для каждой семантической грамматики, связанной с конкретной предметной областью. Короче говоря, отражение семантики предметной области и единая структура для разнообразных поверхностных манифестаций позволяет считать активизацию падежных фреймов гораздо более подходящей основой для надежного разрешения эллипсиса, чем семантические грамматики.
4.2.