<<
>>

ПРИМЕР РАБОТЫ СИСТЕМЫ TEXT

Для того чтобы проиллюстрировать, каким образом схемы и фокусные ограничения определяют содержание и организацию вы­ходного сообщения системы TEXT, рассмотрим вопрос: „Что такое корабль?" Первым шагом в процессе синтеза ответа является созда­ние фонда релевантных знаний.

Сразу же вслед за этим идет выбор схемы. (Подробнее о создании фонда релевантных знаний см.: McKeown, 1982). Здесь мы лишь отметим, что из базы знаний выбирается область, образующая непосредственное окружение объекта, о котором идет речь в вопросе (корабль). Полученный фонд знаний содержит всю информацию, связанную с понятием „корабль" (включая его атрибуты и отношения в базе данных, а также выше­стоящие и нижестоящие понятия в иерархии базы данных). Строе­ние полученного фонда знаний показано на рис. 17. Частностями можно пренебречь, однако читателю рекомендуется обратить внима­ние на то, что в фонд включена лишь информация метауровня.

ВОДА

Рис. 17. Фонд релевантных знаний.

УПРАВЛЯЕМЫЕ ОРУДИЯ ^

СПОСОБ

ПЕРЕДВИЖЕНИЯ

/ / ИМЕТЬ

НАДВОДНЫЙ

ИМЕТЬ

J ОСАДКА ВОДОИЗМЕЩЕНИЕ

Чтобы выбрать схему, система TEXT прежде всего отыскивает множество схем, ассоциированных с данным типом вопросов — запросом на определение, который включает и схему идентификации, и схему состава. Поскольку понятие „корабль" оказывается ниже заданного верхнего уровня иерархии, то выбирается схема идентифи­кации.

Выбрав схему идентификации, система TEXT начинает проходить по графу схемы (рис. 10). Как предписывает первая дуга, ответ должен начинаться с пропозиции, соответствующей предикату „иден­тификации". Соответственно из фонда релевантных знаний выбирает­ся пропозиция, идентифицирующая корабль как водное транспортное средство, которая в конце концов преобразуется в первое предло­жение синтезируемого ответа (см. рис. 18).

Рис. 18. „Что такое корабль?"

(определение КОРАБЛЬ)

; Что такое корабль?

Выбранная схема: идентификация.

1. Корабль — это водное транспортное средство, передвигающееся по поверх­ности воды. 2. Характеристики его надводного хода вводятся атрибутами БД ВОДО­ИЗМЕЩЕНИЕ и ОСАДКА. 3. В число других атрибутов БД для корабля входят: МАКСИМАЛЬНАЯ СКОРОСТЬ, ДВИГАТЕЛЬ, ТОПЛИВО (ЗАПАС ТОПЛИВА и ВИД ТОПЛИВА), РАЗМЕРЫ, ДАЛЬНОСТЬ ПЛАВАНИЯ В ЗАВИСИМОСТИ ОТ СКОРОСТИ и ОФИЦИАЛЬНОЕ НАЗВАНИЕ. 4. Например, „DOWNES" имеет МАКСИМАЛЬНУЮ СКОРОСТЬ — 29, ДВИГАТЕЛЬ — ПАРОВАЯ ТУРБИНА, ТОПЛИВО —810 (ЗАПАС ТОПЛИВА) и БУНКЕРНОЕ (ВИД ТОПЛИВА), РАЗ­МЕРЫ — 25 (ОСАДКА), 46 (ШИРИНА) и 438 (ДЛИНА), ДАЛЬНОСТЬ ПЛАВА­НИЯ В ЗАВИСИМОСТИ ОТ СКОРОСТИ — 4200 (ЭКОНОМИЧНАЯ ДАЛЬНОСТЬ ПЛАВАНИЯ) и 2200 (ДАЛЬНОСТЬ АВТОНОМНОГО ПЛАВАНИЯ).

Пройдя по первой дуге, система попадает в состояние ИД/ИД. Здесь схема предоставляет системе две возможности: либо постро­ить „Описательную" пропозицию (следуя по дуге subr Описание/), либо перейти к состоянию ИД/ОП и построить „Пример" (следуя по дуге subr Пример/). Поскольку из начального состояния подграфа Описание/выходят 3 дуги (рис. 11), а из начального состояния подграфа Пример/ — 2, то система TEXT должна выбирать из пяти дуг (представляющих предикаты „аналогия", „состав", „атрибутив", „основание" и „конкретная иллюстрация").

Одна из дуг — „конкрет­ная иллюстрация" — исключается в результате сравнения информа­ции, содержащейся в фонде релевантных знаний, с семантикой преди­ката. На данном этапе фонд релевантных знаний не содержит инфор­мации, соответствующей этому предикату 13.

Поскольку схема не дает системе возможности осуществить однозначный выбор предложения, для выбора между оставшимися дугами, соответствующими четырем предикатам, применяются фо­кусные ограничения. (Эти четыре предиката, соответствующие им пропозиции, выражение этих пропозиций на ЕЯ и фокусы внимания представлены на рис. 19.) В соответствии с упорядоченностью предпочтительных перемещений фокуса внимания (рис. 16) система прежде всего делает попытку выбрать такую пропозицию, которая позволяет переместить фокус на элемент, который только что введен и является потенциальным кандидатом на роль фокуса. Подразуме­ваемый фокус 14 всех пропозиций, кроме пропозиции „основание", находится на том же понятии „корабль", которое было фокусом предшествующей пропозиции. В отличие от них фокус пропозиции „основание" находится на понятии „характеристики надводного хода" — потенциальном кандидате на роль фокуса, поэтому именно это понятие и выбирается для следующей пропозиции текста.

Рис. 19. Возможные предикаты, соответствующие им выражения на ЕЯ и фокусы

внимания.

1. Аналогия

(отношения аналогии КОРАБЛЬ НА УПРАВЛЯЕМЫЕ ОРУДИЯ) на корабле имеются управляемые снаряды и орудия

фокус = корабль

2. Состав

(состав КОРАБЛЬ (АВИАНОСЕЦ, ФРЕГАТ, КОРАБЛЬ СОПРО­ВОЖДЕНИЯ, КРЕЙСЕР, ЭСМИНЕЦ)

В базе данных ONR имеется 5 типов кораблей: авианосцы, фрегаты,

корабли сопровождения, крейсеры и эсминцы.

фокус = корабль

3. Атрибутив

(атрибуты БД КОРАБЛЬ (название ОФИЦИАЛЬНОЕ НАЗВАНИЕ)

(темы ДАЛЬНОСТЬ ПЛАВАНИЯ В ЗАВИСИМОСТИ ОТ СКОРО­СТИ РАЗМЕРЫ) (дубликаты ТОПЛИВО ВИД_ ТОПЛИВА ЗА-

ПАС ТОПЛИВА) (атрибуты ДВИГАТЕЛЬ МАКСИМАЛЬНАЯ_СКО-

РОСТЬ)_

Корабль имеет атрибуты БД: МАКСИМАЛЬНАЯ СКОРОСТЬ, ДВИГАТЕЛЬ, ТОПЛИВО (ЗАПАС ТОПЛИВА и ВИД ТОПЛИВА), РАЗМЕРЫ, ДАЛЬ­НОСТЬ ПЛАВАНИЯ В ЗАВИСИМОСТИ ОТ СКОРОСТИ и ОФИЦИАЛЬНОЕ НАЗВАНИЕ.

фокус = корабль

4. Основание

(данные, основанные на БД КОРАБЛЬ (СПОСОБ ПЕРЕДВИ­ЖЕНИЯ НАДВОДНЫЙ) (ИМЕТЬ ОСАДКА) (ИМЕТЬ ВОДОИЗМЕЩЕ­НИЕ))

Характеристики его надводного хода вводятся атрибутами БД ВОДОИЗМЕ­ЩЕНИЕ И ОСАДКА.

фокус = характеристики надводного хода

Заметим, что выбор предиката „основание" в результате учета фокусных ограничений служит аргументом в пользу того правила,

что система по возможности должна перемещать фокус. Система вполне может вновь переместить фокус на понятие „корабль" (что она и делает в третьем предложении текста (рис. 18)), употребив атрибутивную пропозицию, рассматривавшуюся в качестве одной из возможностей для предложения (2.) С другой стороны, на более поздней стадии построения текста, после того как фокус продол­жал оставаться на понятии „корабль", могло бы оказаться затруд­нительным переместить его на „характеристики надводного хода". Это как раз тот случай, когда возможность простой подачи инфор­мации, если ее не реализовать в нужный момент, будет потеряна.

Из состояния ИД/ПР (рис. 10) процесс продолжается до тех пор, пока не будет выбрана одна из дуг pop и тем самым не завер­шена схема идентификации. К этому моменту сообщение целиком сформировано и представлено в виде списка пропозиций. Затем про­исходит обращение к тактическому компоненту для перевода сообще­ния на естественный язык и построения окончательного текста, как показано на рис. 18.

Чтобы продемонстрировать, хотя бы в самых общих чертах, как это делается, на рис. 20 приводятся в форме пропозиций пер­вые два предложения ответа (подробности о выборе поверхностной формы можно найти в: М с К е о w п, 1982; М с К е о w п, 1983). В та­ком внутреннем представлении пропозиции поступают на вход такти­ческого компонента, куда поступает также фокусная информация, включающая сведения о текущем фокусе пропозиции и список потенциальных фокусов (упорядоченный перечень возможных канди­датов на роль фокуса). Для выбора лексической реализации каждого

Рис. 20. Пропозиции 1 и 2.

Пропозиция 1:

(идентификация КОРАБЛЬ СРЕДСТВО-ВОД НОГО-ТРАНСПОРТА (рестриктивный СПОСОБ-ПЕРЕДВИЖЕНИЯ НАДВОДНЫЙ) (не-рестриктивный СРЕДА-ПЕРЕДВИЖЕНИЯ ВОДА)

(не-рестриктивный ФУНКЦИЯ ПЕРЕВОЗКА)

фокус = КОРАБЛЬ

Пропозиция 2:

(данные, основанные-на-бд КОРАБЛЬ (СПОСОБ-ПЕРЕДВИЖЕНИЯ НАД­ВОДНЫЙ)

(ИМЕТЬ ОСАДКА) (ИМЕТЬ ВОДОИЗМЕЩЕНИЕ)

фокус = (СПОСОБ-ПЕРЕДВИЖЕНИЯ НАДВОДНЫЙ)

аргумента пропозиции и определения их падежных ролей в такти­ческом компоненте используется словарь. Предикат всегда реали­зуется в виде сказуемого предложения, а выбор глагола в свою оче­редь задает те аргументы пропозиции, которые будут заполнять падежные роли протагониста 15 и цели 16. Представление о пропо­зиции (2) на промежуточном этапе перевода дано на рис. 21. В данном случае был выбран глагол ‘вводить’, аргументам „(ИМЕТЬ ОСАДКА) (ИМЕТЬ ВОДОИЗМЕЩЕНИЕ)" приписана роль прота­гониста предложения, а аргументам „КОРАБЛЬ (СПОСОБ ПЕРЕ­ДВИЖЕНИЯ НАДВОДНЫЙ)" — роль цели. Функция ‘словарная статья для’ обозначает, что лексическая реализация для этих аргу­ментов будет выбрана также через обращение к их словарным стать­ям, находящимся в словаре.

Рис. 21. Пропозиция 2 на промежуточном этапе.

глагол = = = вводить

протагонист = (словарная статья-для (ИМЕТЬ ОСАДКА) (ИМЕТЬ ВОДОИЗ­МЕЩЕНИЕ))

цель = посессив = (словарная статья-для КОРАБЛЬ)

ппр = (словарная статья для СПОСОБ-ПЕРЕДВИЖЕНИЯ НАДВОД­НЫЙ)

После того как лексическая реализация выбрана и для осталь­ных непереведенных аргументов, происходит обращение к граммати­ке для завершения синтаксической отделки предложения и упорядо­чения составляющих, в результате чего получается реальное линейно организованное предложение. На этом этапе фокусная информация используется для выбора подходящей поверхностной реализации. Например, поскольку понятие „корабль" являлось фокусом предло­жения (1), во втором предложении отсылка к нему может быть прономинализована, что приводит к выбору местоимения „его". Фокусная информация также учитывается при выборе активной конструкции, пассивной конструкции или конструкции, известной под названием „there-введение“ . Риторические предикаты дают систе­

ме информацию о характере возможной межфразовой связки. В рас­сматриваемом ответе связка например в предложении (4) выбрана на основе предиката „конкретная иллюстрация".

8. СМЕЖНЫЕ ИССЛЕДОВАНИЯ

Без сомнения, большинство исследований в области языкового синтеза, выполненных к настоящему моменту, касается проблем тактического компонента. К их числу относятся: система непосред­ственного перевода заданной семантической сети в предложения английского языка (см. Simmons & Slocum, 1972); работа Голдмана по лексическому выбору в рамках системы MARGIE (Goldman, 1975); применение Дэви системной грамматики для построения комментариев к играм (D a w е у, 1979); система МакДо нальда MUMBLE (McDonald, 1980), которая дает достаточно широкий охват английского синтаксиса и осуществляет процесс принятия решений, учитывающий множество ситаксических ограни­чений на реализацию, а также совсем недавняя работа по созда­нию системы NIGEL (Mann, 1983; Mathiesson, 1981), на­правленная на разработку подробной лингвистически обоснованной грамматики в рамках системной концепции. Без всех этих исследова­ний по языковому синтезу разработка системы TEXT была бы практи­чески невозможна, поскольку система использует результаты этих ис­следований в своем тактическом компоненте (в частности, понятие словаря, выработанное Голдманом и МакДональдом). Однако в этих работах почти ничего не говорится о проблемах, которым уделяется наибольшее внимание при разработке системы TEXT,— о проблемах определения содержания и организации текста.

Более тесно с проблемой содержания связаны исследования по планированию и синтезу текстов. К проблеме планирования ре­чевых актов в ответ на вопрос пользователя обращался Коэн (Cohen, 1978). Его система OSCAR могла выбрать речевой акт и определить его пропоцизиональное содержание. В этом же направ­лении следовал Аппельт (Ар ре It, 1981), показавший, что форма­лизм планирования можно использовать для определения не только содержания, но и лексической и синтаксической структуры текста. Важное дополнительное значение работы Аппельта в том, что она опровергает „поточную метафору". В то время как другие синтези­рующие системы исходили из стремления отделять процесс приня­тия решений о том, что сказать, от того, как это сказать, работа Аппельта основывается на гипотезе, что решения, принимаемые на самом низком уровне процесса языкового синтеза, могут влиять на решения о том, что сказать 18. Однако и в работе Аппельта, и в работе Коэна речь идет в основном о синтезе отдельного предложения. Они не касаются проблемы соответствующей организации синтеза применительно к тексту.

В двух более ранних системах, способных строить текст, ос­новное внимание уделялось не проблеме синтеза текста, а тому, какого рода знания необходимы для построения правильного текста. Суортаут (S w а г t о u t, 1981) исследовал проблему знаний, необхо­димых для синтеза текста, на примере медицинской системы-консуль­танта. Он показал, что организация знаний, удобная с точки зрения эффективной постановки медицинского диагноза, может оказаться непригодной для построения объяснений о ходе рассуждений систе­мы. Суортаут разработал представление, удобное для объяснения хода рассуждений системы, которое использовалось для построения объяснений. Однако в первую очередь его интересовало представле­ние знаний, а не процесс синтеза.

Проблемой знаний, необходимых для порождения, занимался также Миан применительно к своей системе порождения рассказов

TALESPIN [Meehan, 1977). TALESPIN умела строить простые короткие рассказы о людях (или антропоморфных животных), разра­батывающих планы для достижения целей, и об их неудачах на пути достижения этих целей. В основном Миан занимался теми аспекта­ми программы, которые касаются планирования, а также знаниями, необходимыми для выбора планов действий персонажей, хотя его сис­тема могла строить описания персонажей и их действий, состоя­щие из нескольких предложений.

Манн и Мур (Mann & Moore, 1981) занимались специфиче­скими проблемами, возникающими при порождении последовательно­стей, состоящих из многих предложений. Они разработали Систему Выдачи Знаний (Knowledge Delivery System (KDS)), которая могла строить небольшой текст, содержащий инструкции о действиях в случае пожарной тревоги. Для построения оптимального текста система опирается на метод „постепенного подъема" (hill-climbing), не используя знаний о структуре дискурса. Другой недостаток их системы — крайне ограниченная область применения, обслуживаю­щая систему пожарной тревоги.

Достоинством KDS является возможность непрерывного ре­дактирования для получения окончательного варианта текста. Сис­тема TEXT не может оценивать производимый ею текст, а это, бе­зусловно, важная способность, которая в конечном счете должна быть учтена. Для осуществления переоценки текста система KDS пользуется, правда, эвристиками общего характера; кроме того, она не использовалась для получения большего количества текстов. В противоположность ей система TEXT принимает решения об упо­рядочении пропозиций на основе риторических стратегий, ко­торые обычно используются людьми для достижения конкретных дис­курсивных целей.

Из всех предшествующих работ по синтезу текста ближе всего к нашей системе работа Уайнера (Weiner, 1980). Этого автора, так же как и нас, интересует структура текста, хотя основное внимание он уделяет объяснениям. Он предлагает грацматику объяс­нения, которая в ряде аспектов близка к применяемым нами схемам, а именно: эта грамматика диктует возможное упорядочение пропо­зиций, учитывает иерархическую структуру текста, а ядерные эле­менты грамматики (например, утверждение, причина) находятся на том же уровне дробления, что и предикаты системы TEXT. Кроме того, учитывается также понятие фокуса внимания: на каждом шаге объяснения указывается пропозиция, находящаяся в фокусе.

Уайнер предполагает, что обосновать некоторое утверждение можно одним из трех способов:

(1) предъявив причину;

(2) предъявив подтверждающие примеры;

(3) предъявив возможные альтернативы и показав, что все они не подходят, за исключением одной, свидетельствующей в пользу данного утверждения.

Таким образом, в качестве основных элементов Уайнер испо­льзует четыре „предиката" (утверждение, причину, пример и альтер­нативу), а также несколько подчиняющих элементов, таких, как и/или и если/то. Поскольку объяснения могут быть вставлены в какую-то объемлющую, часто сложную, структуру, то утверждение, за которым следует причина, может в свою очередь выступать в качестве причины другого утверждения. Чтобы учесть это, правила грамматики порождают древесные структуры, которые могут прео­бразовываться с помощью трансформационных правил и порождать иерархическую структуру, представляющую поверхностное объясне­ние. На каждом шаге объяснения один из узлов дерева выделяется в качестве фокусного.

В то время как подход, принятый в системе TEXT, совместим с подходом Уайнера, теория структуры текста, разработанная для нашей системы, намного превосходит то, что сделано Уайнером, в следующих отношениях: в системе TEXT стратегии соотносятся с различными дискурсивными целями, тогда как в системе Уайнера грамматики разрабатывались лишь для случая обосновывания (justi­fication); система TEXT использует в схемах большее число преди­катов, чем система Уайнера; схемы, используемые в системе TEXT, учитывают понятие вариативности, корректируемой с помощью дру­гих воздействий на текст, в частности через посредство фокуса внимания и глубинной, семантической информации; наконец, пред­ставление фокуса внимания и его взаимодействие со схемами разра­ботаны в системе TEXT гораздо подробнее, поскольку в качестве фокуса пропозиции рассматривается ее аргумент, тогда как в системе Уайнера фокусом служит вся пропозиция.

Необходимо упомянуть еще одну работу, на этот раз из облас­ти психологии. К нашим схемам близки грамматики рассказов Румельхарта (R u m е 1 h а г t, 1975), поскольку они описывают имен­но структуру текста применительно к рассказам. Румельхарт исполь­зует грамматики не для синтеза, а для распознавания глубинной структуры рассказа и для разработки такой организации памяти, которая способна выделять существенные для рассказов события. Таким образом, при разработке своих грамматик Румельхарт пре­следовал цели, отличные от наших. Кроме того, грамматики Румель­харта отличаются от наших схем еще рядом свойств: в их состав входят как структурный, так и семантический компоненты; нетер­минальные узлы грамматики (например, обстановка, эпизод, собы­тие) не соответствуют риторическим предикатам системы TEXT; Румельхарт рассматривает структуру повествований, тогда как нас в большей степени интересует структура дескрипций.

Подводя итог, можно сказать, что очень небольшая часть пред­шествующих исследований прямо касается вопросов, решаемых в системе TEXT. От тех немногих исследований, которые все-таки затрагивают эти проблемы, TEXT отличается тем, что дает под­робную вычислительную модель дискурсивных стратегий, которые, взаимодействуя с фокусом внимания, строят окончательный текст.

9.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме ПРИМЕР РАБОТЫ СИСТЕМЫ TEXT:

  1. Интернет: немного истории
  2. Как работает интернет
  3. Графические программы и утилиты
  4. Умение учиться — профессиональное качество веб-журн
  5. Список сокращений
  6. БИБЛИОГРАФИЯ
  7. Билл Ашкрофт Язык
  8. 1.4.4. Различные виды подразумеваемых соглашенийо выборе применимого права
  9. Становление профессионально-ориентированной иноязычной коммуникативной компетентности студентов в условиях вузовского образования
  10. WWW — система гипертекста
  11. Приложение 2 Словарь терминов