ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Эллипсис.

Эллипсис — многоаспектное явление. Его проявления весьма разнообразны и широки, и стратегии преодоления многих типов эллипсиса пока еще не разработаны. Тем не менее это в то же время весьма распространенное явление, и любой интерфейс, предназначенный для практического общения с реальными поль­зователями, должен уметь решать эту проблему.

Эмпирические наблюдения показали, что пользователи естественноязыковых интер­фейсов употребляют эллипсис и другие средства сокращения (на­пример, анафору, укороченные именные группы с определенной рефе­ренцией, шифроподобные выражения с опущением семантически избыточных слов и лексические аббревиатуры) с пугающей частотой (Carbonell, 1983). Результаты наших эмпирических наблюдений можно суммировать следующим образом.

Принцип сжатости. Пользователи интерфейсов, работающих в режиме естественного языка, настаивают на сжатости своих выска­зываний независимо от задачи, формы общения, умения печатать или инструкций, призывающих к противному, отказываясь жертво­вать гибкостью выражений, присущей общению на естественном языке.

В общих чертах эллипсисы можно подразделить на внутри- сентенциальные и межсентенциальные, при этом в практических интерфейсах, работающих на естественном языке, преобладают в основном эллипсисы второго типа. Внутрисентенциальный эллип­сис наиболее часто встречается в сочинительных предложениях, таких, как:

John likes oranges and Mary apples.

‘Джон любит апельсины, а Мэри — яблоки’.

Нередко данный тип эллипсиса поддается обнаружению только на основе семантики (ведь не существует осмысленного сочетания существительное — существительное: Mary apples). В следующем предложении с такой же синтаксической структурой наиболее пред­почтительной оказывается интерпретация, не содержащая эллипсиса:

John likes oranges and Macintosh apples.

‘Джон любит апельсины и яблоки макинтош’.

Нам неизвестна общая стратегия интерпретации данного класса внутрисентенциального эллипсиса, которая доказала бы свою дейст­венность. Интересным, но пока неопробованным подходом пред­ставляется следующий: применить описанные ниже стратегии к ана­лизу сложного предложения, но при этом рассматривать каждое сочиненное предложение как отдельное высказывание, правда, с некоторыми расширениями, чтобы использовать параллелизм син­таксической и семантической структур между соответствующими составляющими этих сочиненных предложений.

Можно выделить несколько форм межсентенциального эллип­сиса.

— Развитие (Elaboration). Эллиптичный фрагмент в высказы­вании того или другого собеседника может быть развитием пред­шествующего высказывания. Такое развитие может быть осущест­влено любым из двух говорящих, но обычно это делает второй собеседник, как в следующем примере:

Пользователь: Дайте мне диск с большой емкостью.

Система: С двойными портами?

Пользователь: Да, и универсальный частотный адаптер.

— Повтор (Echo). Фрагмент высказывания первого говоря­щего повторяется вторым говорящим. Как показано более полно в Hayes and Reddy, 1983, это позволяет второму собесед­нику подтвердить свое понимание высказывания первого собесед­ника, но при этом не требовать от него ответного эксплицитного подтверждения.

Пользователь: Добавить двойной диск к заказу.

Система: Диск с двойными портами. С какой емкостью па­мяти?

Если бы, с другой стороны, система эксплицитно задала вопрос „Вы имеете в виду диск с двойными портами?", то пользователю по правилам коммуникации пришлось бы давать ответ. Однако и в том, и в другом случае пользователю разрешается исправ­лять (или не исправлять) любые ошибки в понимании, обнару­живаемые системой. Иногда, как в примере, приведенном ниже, повтор может быть также выражением удивления. Вообще же эта форма эллипсиса гораздо чаще встречается в устной речи, чем в общении через клавиатуру, однако необходимость в том, чтобы надежная анализирующая система получала подтверждение своих предположений без особого нарушения хода диалога, делает эту форму эллипсиса в общем случае весьма полезной для интерфей­сов, работающих на естественном языке (см.

разд. 4.2).

— Исправление. Эллиптичный фрагмент замещает часть пред- ществующего высказывания, содержащую ошибку. Исправление осуществляется тремя стандартными способами.

• Первый говорящий может немедленно сам себя поправить (проблема во многом сходна с повторяющимися сегментами, упо­минаемыми в разд. 3.2).

• Второй говорящий может предложить исправление (поме­ченное именно как исправление, или просто эллиптичный фраг­мент в вопросительной форме).

• Или: первый говорящий может поправить сам себя в ответ на уточняющий запрос второго говорящего. Уточняющий запрос может быть в форме прямого вопроса, констатации непонимания или повторения вызывающей сомнения части входного высказы­вания (тем самым могут объединяться две формы эллипсиса, как показано ниже).

Пользователь: Дайте мне накопитель на ленте с двойными

портами.

Система: Накопитель на ленте с двойными портами?

Пользователь: Извините, накопитель на дисках с двойными

портами.

— Переформулировка. Часть старого высказывания переформу­лируется, причем имеется в виду, что новая формулировка и должна войти в интерпретацию высказывания на место старой состав­ляющей. По-видимому, это наиболее распространенная форма эл­липсиса и единственная, для которой разработаны легко осущест­вимые вычислительные стратегии. Ниже все примеры относятся к этому типу.

Система LIFER/LADDER (Hendrix, 1977; Sacerdoti, 1977) имеет дело с ограниченной формой эллипсиса-переформулировки. Алгоритм обработки эллипсиса в LIFER производит анализ фраг­ментарного выражения, если оно совпадает с частичным деревом анализа, полученным из предшествующего (в диалоге) полного дерева путем (а) выбора поддерева, соответствующего некоторо­му непрерывному сегменту в предшествующей реплике, и (б) воз­можного отбрасывания одной или более из его ветвей. Если фраг­ментарное входное выражение совпадает с таким частичным де­ревом анализа, то предполагается, что оно является эллипсисом- переформулировкой, и отсутствующие элементы частичного дере­ва анализа заполняются на основе предшествующего полного де­рева анализа.

В частности, если весь фрагмент покрывается одной грамматической категорией и данная категория присутствовала в последнем обработанном запросе, то алгоритм обработки эллип­сиса непосредственно заменяет значение данной категории в пос­леднем построенном дереве на указанный фрагмент. Например:

Пользователь: Какова длина „Кеннеди"?

Система: 200 метров.

Пользователь: Самого быстрого авианосца?

Так как „Кеннеди" и „самый быстрый авианосец44 подходят под семантическую категорию (корабль), то второе выражение раз­решается подставить на место первого. Заметим, что чисто синтак­сический анализ недостаточно избирателен, чтобы произвести соот­ветствующую замену. „Самый быстрый авианосец" — это именная группа, а в исходном предложении представлены три именные группы: „длина", „длина «Кеннеди»" и „Кеннеди44.

Однако жесткая структура семантической грамматики доказала свою неспособность обрабатывать некоторые распространенные формы переформулировочного эллипсиса. Формализм семантической грамматики накладывает на обрабатываемые сообщения слишком сильные ограничения, для того чтобы стратегия простого замещения могла быть эффективно применена в тех случаях, когда имеется более одного фрагмента, когда имеется обрамляющий фрагмент (такой, как „самых маленьких с двойными портами" в одном из примеров ниже) или когда во фрагменте не сохраняется линейный порядок. Напротив, замещение на основе падежного фрейма пред­ставляет свободу для обработки таких эллиптичных фрагментов.

Следующие примеры иллюстрируют те виды эллипсиса, которые обрабатываются с помощью падежных фреймов. Предполагается, что каждый фрагмент следует непосредственно за исходным за­просом. Отметим также, что мы используем здесь термин, „падеж­ный фрейм" как в смысле фреймов именных групп, так и в смысле фреймов предложений; в данных примерах активизируется фрейм понятия „диск" с такими падежами, как емкость памяти, число портов и т. д.

ИСХОДНЫЙ ЗАПРОС:

„Какова стоимость трех самых больших дисков с одинарными

портами и с фиксированными средствами доступа?" ПОСЛЕДУЮЩИЕ ЗАПРОСЫ:

„Скорость?"

„Двух самых маленьких?"

„А цена двух самых маленьких?"

„А также самых маленьких с двойными портами?"

„Скорость с двумя портами?"

„Диска с двумя портами?"

В этих представительных примерах не помогает пунктуация и очень ограничено применение чистого синтаксиса. Так, последние три фра­зы имеют сходную синтаксическую структуру (две последние — вообще неразличимы), но каждая из них требует осуществления особой замены в исходном запросе.

Система DYPAR-II (разбираемая в разд. 5.2) обрабатывает эллипсис как раз с помощью падежных фреймов. Здесь мы пред­ставляем основной метод разрешения эллипсиса на основе падеж­ных фреймов, используемый системой. По-видимому, этот метод по разнообразию обрабатываемых форм эллипсиса объединяет сфе­ры действия системы LIFER/LADDER (Hendrix, 1977; Sacer­doti, 1977) и модуль обработки эллипсиса системы PLANES (Waltz and Goodman, 1977). Хотя с помощью этого метода и можно обработать большинство известных нам форм перефор- мулировочного эллипсиса, его нельзя рассматривать как общее лингвистическое решение проблемы эллипсиса.

Рассмотрим следующий пример:

>What is the size of the 3 largest single port fixed media disks?

‘Каков размер 3 самых больших дисков с одинарными портами

и с фиксированными средствами доступа?’

>disks with two ports?

‘дисков с двойными портами?’

Заметим, что данный вид эллипсиса невозможно обработать каким- либо стандартным способом, если предшествующий запрос хра­нится дословно или в виде дерева анализа в терминах семанти­ческой грамматики. Выражение Disks with two ports в лучшем случае будет соответствовать некоторой нетерминальной категории (дескриптор-диска) (disk-descriptor) и, следовательно, в соответ­ствии с алгоритмом в LIFER оно заменит все выражение single port fixed media disks, имеющее признак (дескриптор-диска) в по­строенном дереве анализа исходного запроса.

Однако неформаль­ный опрос потенциальных пользователей показывает, что предпо­чтительная интерпретация эллипсиса требует сохранения атрибута MEDIA ‘СРЕДСТВА ДОСТУПА’, представленного в исходном за­просе. Отсюда следует, что процесс разрешения эллипсиса тре­бует более тонкого метода замены, чем простая подстановка зна­чений нетерминальных категорий высшего уровня, взятых из эллип­тичного сообщения, вместо соответствующих значений нетерминаль­ных категорий в дереве анализа предшествующего высказывания.

Принимая во внимание тот факт, что анализ предложения и описание объекта на основе падежных фреймов отражают стан­дартным способом релевантные семантические отношения между составляющими, можно предложить следующие принципы объеди­нения частично актуализированного падежного фрейма с предшест­вующим падежным фреймом:

— Если некоторый семантический падеж актуализирован и в исходном запросе, и в эллиптичном фрагменте, то следует исполь­зовать в качестве заполнителя падежной роли то выражение, ко­торое стоит в эллиптичном фрагменте. Так, в нашем примере вы­ражение with two ports подставляется вместо выражения single port, так как оба являются различными значениями одной и той же падежной роли, несмотря на их различные синтаксические роли. (Single port в исходном запросе — адъективная конструкция, a with two ports в эллиптичном фрагменте — постноминальное определе­ние.)

— Сохранить все падежи исходной структуры, если им экспли­цитно не противоречит новая информация в эллиптичном фраг­менте. Например, словосочетание fixed media сохраняется как часть описания дисков; то же относится и ко всем падежам сентен­циального уровня в исходном запросе; например, сохраняются ко­личественный определитель и порождающий атрибут запроса (size).

— Если какой-то падеж указан в эллиптичном фрагменте, но отсутствует в исходном запросе, то взять заполнитель этого падежа из эллиптичного фрагмента. Например, в нижеследующем примере при разрешении эллипсиса дескриптор „с фиксированными голов­ками" вставляется в качестве падежа „СРЕДСТВА ДОСТУПА" в именной падежный фрейм понятия „диск":

> Какие диски совместимы с компьютером VAX 11-780?

> Какие-либо совместимые диски с фиксированными головками?

— Если в эллиптичном фрагменте упоминается новый падеж­ный фрейм, то происходит полное замещение, подобное замещению при опоре на концепцию семантической грамматики. Так, если бы за последним примером следовал вопрос „Как насчет накопителей на ленте?", то выражение „накопители на ленте" было бы подстав­лено вместо выражения „диски с фиксированными головками", а не вместо слова „диски", поскольку в последнем случае получилось бы семантически аномальное выражение „накопители на ленте с фиксированными головками". В этих примерах решающую роль играют семантические отношения, представленные в падежном фрей­ме и отсутствующие в дереве анализа, построенном на принци­пах семантической грамматики.

Основным преимуществом метода актуализации падежных фрей­мов при разрешении эллипсиса является возможность сопостав­ления соответствующих падежей, а не поверхностных цепочек, син­таксических структур или неканонических репрезентаций. Вслед­ствие этого разработка механизма разрешения эллипсиса такой же мощности на основе семантической грамматики была бы чрезвы­чайно затруднена. Основная проблема заключается в том, что в семантических грамматиках синтаксис и семантика переплетаются таким запутанным образом, что для одной и той же семантической сущности приходится использовать несколько репрезентаций. На­пример, порядок маркированных падежей во входной цепочке никак не отражает различий в значении [11], тогда как порядок следования немаркированных падежей в поверхностной структуре отражает такие различия. В семантической же грамматике деревья анализа, построенные на основе маркированных падежей с разным порядком следования, могут различаться; поэтому знания о том, что поверх­ностное расположение немаркированных падежей значимо, а распо­ложение маркированных падежей не значимо, должны содержаться в программе разрешения эллипсиса. Это весьма неестественное хранилище для такой базовой информации. Более того, чтобы до­стичь описанной выше операциональной силы падежных фреймов, разрешение эллипсиса, основывающееся на деревьях анализа в соот­ветствии с принципами семантической грамматикализации, также должно предусматривать выявление семантической эквивалентности адъективных и постноминальных конструкций (которые соответст­вуют различным нетерминальным категориям и различным относи­тельным позициям в деревьях анализа). Это необходимо для того, чтобы можно было эффективно использовать такие эллиптич­ные структуры, как "a disk with 1 port” (‘диск с одним портом’) для замены сегмента ‘‘dual-port” (‘двойной порт’) в выражении ‘‘...dual-port fixed-media disk...”, если это выражение является час­тью более раннего высказывания. Один из способов достижения такого результата — это заранее выявить конкретные нетерминаль­ные единицы, которые могут замещать друг друга в определенных контекстах, то есть фактически сгруппировать неканонические репре­зентации в контекстно зависимые классы семантической эквивалент­ности. Однако этот процесс потребовал бы составления вручную больших ассоциативных таблиц или других подобных структур данных, а это дорогая цена для каждой семантической граммати­ки, связанной с конкретной предметной областью. Короче говоря, отражение семантики предметной области и единая структура для разнообразных поверхностных манифестаций позволяет считать активизацию падежных фреймов гораздо более подходящей осно­вой для надежного разрешения эллипсиса, чем семантические грам­матики.

4.2.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Эллипсис.: