ВВЕДЕНИЕ
Для того чтобы адекватным образом построить текст на естественном языке, система должна обладать способностью определять, какую информацию ей следует включить и как организовать ее, для того чтобы осуществить стоящие перед ней коммуникативные цели как можно эффективнее.
В то время как вопросы, связанные с определением поверхностной структуры заданного сообщения на естественном языке, не раз служили предметом исследования, проблемы, связанные с содержанием и текстовой формой сообщения, остаются в основном нерешенными. В настоящей работе рассматривается теория синтеза [39], определяющая содержание и организацию текста в зависимости от заданной коммуникативной цели. Теория реализована в системе TEXT, которая синтезирует ответы на вопросы о структуре базы данных в виде небольших текстов.Наш подход основан на фундаментальной гипотезе о том, что человек располагает определенными знаниями о средствах, с помощью которых могут быть достигнуты определенные коммуникативные цели, а также о способах использования этих средств для создания текста. Иными словами, в текстах воплощается один или несколько принципов организации. Например, структура повествовательного текста следует определенным стандартным моделям, одна из которых предписывает начинать с характеристики обстановки (сцены, действующих лиц или временных рамок). Нами разработана вычислительная модель дискурсивных стратегий, задающих организацию текста, которая используется для управления процессом синтеза при решении вопроса о том, как продолжать текст в каждой данной точке дискурса („Что сказать дальше?"). Модель разрабатывалась для трех коммуникативных целей: определение, описание и сравнение. Она основана на анализе дискурсивных стратегий, обычно используемых для этих целей в реально встречающихся текстах.
Дискурсивные стратегии — это только часть разработанного метода синтеза.
Для окончательного определения содержания и структуры текста предусматривается также взаимодействие с семантическими знаниями, касающимися информации, релевантной для данной коммуникативной цели, и учет того, как эта информация связана со сказанным ранее. Эти ограничения отражаются в представлении фокуса внимания. Фокус внимания ограничивает информацию, которую необходимо учитывать, решая, что сказать дальше. Он также задает ограничения в том случае, когда дискурсивная стратегия позволяет выбрать продолжение текста несколькими способами, указывая, какая информация лучше увязывается с предшествующим дискурсом. В настоящей работе фокус внимания обсуждается лишь в той степени, в какой он связан с дискурсивными стратегиями (более подробно см.: McKeown, 1982; McKeown, 1983).Использование формальной модели дискурсивных стратегий, взаимодействующей с фокусом внимания, представляет собой шаг вперед по сравнению с предшествующими системами синтеза языковых сообщений. Во-первых, такая модель задает механизм синтеза связного текста. Это отличает ее от большинства более ранних систем, в которых основное внимание сосредоточено на синтезе отдельных предложений. Из систем, способных порождать связный текст (см., например: Mann & Мооге, 1981; Meehan, 1977; S w а г- t о u t, 1981; Weiner, 1980), лишь в немногих использовалось формальное представление стратегий для определения содержания и организации текста *. Кроме того, еще одна черта нашего подхода, отсутствующая в других системах, — учет нескольких одновременных воздействий на содержание и структуру синтезируемого текста.
grad, 1983), все же имеется ряд существенных различий, касающихся процессов, необходимых для выполнения каждой из этих задач.
Интерпретация речи на естественном языке требует обследования текста с целью определения его значения и намерений его создателя. Она требует использования доступных сведений и изучения ограниченного набора возможностей, которыми, по мнению системы, располагает автор, для определения реально выбранной возможности.
Например, при интерпретации следующего ниже примера (0) система должна использовать сведения о том, что give ‘давать’ выступает в пассивной форме, чтобы определить, что book ‘книга’ — это объект, который дается, а Магу ‘Мэри’ — лицо, которому дается объект.Пример 0. Магу was given a book.
‘Мэри получила книгу.’
Хотя при разработке интерпретирующей системы и необходимо уточнять, каким образом ограничиваются возможности выбора, которыми располагает говорящий в любой данный момент (например, эти уточнения могут быть записаны в виде грамматики), но зато не требуется формулировать причины выбора той или иной возможности [40]. Так, интерпретируя пример (0), система не рассматривает того, почему автор употребил пассивную форму, а не сделал другой возможный в данный момент выбор. При синтезе же выражений естественного языка именно это и требуется. Чтобы построить пример (0) в составе соответствующего речевого отрезка, генератор должен решить, что, хотя возможна и активная и пассивная форма, именно пассивная форма предпочтительнее. Более того, генератор должен располагать достаточно общими принципами для принятия такого решения, которое он может использовать во всех похожих ситуациях. В то время как исследование в области процессов интерпретации может ограничиться описанием ограничений, налагаемых на имеющиеся возможности для наиболее эффективного выбора одной из них, исследование в области процессов синтеза должно для различных ситуаций устанавливать, почему одна возможность лучше других 3.
Возможности, с которыми должна иметь дело синтезирующая система, охватывают разнообразные источники знаний. Система синтеза языковых сообщений должна быть в состоянии решить, какую информацию сообщить, когда что сказать и какие слова и синтаксические структуры наилучшим образом выражают ее намерения. На последнем из этих этапов принимаются локальные решения, такие, как выбор на уровне синтаксиса, продемонстрированный на примере (0), и здесь часто используются грамматика и словарь.
До недавнего времени именно эта проблематика и находилась в центре внимания исследователей, занимавшихся синтезом речевых произведений. Однако определение того, что сказать и как структурировать текст на уровне выше уровня предложения, также ставит языковые проблемы, которые должен решать любой человек, произносящий или пишущий развернутые речевые произведения. Все эти три класса решений являются частью общей проблемы синтеза языковых сообщений.Если строится связный текст, то проблемы структуры и связности дискурса и воздействия этих свойств дискурса на содержание становятся особенно важными. Для некоторых практических задач решение вопроса о том, что сказать, может быть достаточно простым (например, для задачи поиска в базе данных), тогда как для других могут потребоваться более сложные процессы рассуждения (например, для задачи выбора информации, соответствующей уровню обучаемого, в автоматизированных системах обучения). Во всяком случае, совершенно ясно, что один из первых шагов в процессе развертывания устной или письменной речи — это сужение сферы внимания до той информации, которая существенна для актуальной в данный момент цели. Например, если кто-то задаст мне вопрос относительно рок-музыки панков, с моей стороны будет неуместно начать говорить о любимой мною греческой классике даже в том случае, если я знаю гораздо больше об античной греческой литературе, чем о рок-музыке панков. Если только я не захочу сравнить мои знания о греческой классике с каким-то аспектом рок-музыки панков, я вряд ли буду хоть как-то учитывать эти мои знания, формулируя ответ на упомянутый вопрос.
Определив, какая информация должна быть релевантной для текущей цели дискурса, синтезирующая система должна суметь решить, что сказать сначала, что потом и как завершить дискурс. Порядок информации в тексте может иметь решающее значение для понимания текста читающим. Например, легко понять последовательность предложений в примере (1), однако, если примеры на какое-то понятие приводятся раньше, чем введено само понятие (как в примере (2)), значение текста становится неясным.
Пример 1.
(A) Many sports are just a rich man’s domain.
‘Многие виды спорта доступны лишь богатым людям.’
(B) Skiing, golf, and tennis are cases in point.
‘Таковы лыжи, гольф и теннис.’
Пример 2.
(A) Skiing, golf, and tennis are cases in point.
‘Таковы лыжи, гольф и теннис.’
(B) Many sports are just a rich man’s domain.
‘Многие виды спорта доступны лишь богатым людям.’
При условии, что генератор строит текст, а не просто отдельные предложения, выбор некоторых возможностей на поверхностном уровне оказывается решающим для обеспечения связности текста. Генератор должен уметь принимать обоснованные решения об уместности использования местоименной референции и той или иной синтаксической конструкции. Примеры, иллюстрирующие случаи такого выбора, приводятся ниже (см. (3) — (5)). Если бы генератор случайным образом решал, какую из этих возможностей выбрать в каждой данной, ситуации, то без дополнительного указания легко могло бы быть принято неподходящее решение. Если суждения из примеров (3) — (5) должны выступать в составе текста (примеры (6) — (8)), то одна из возможностей в каждой паре становится явно неуместной.
Пример 3. Лексический выбор: bought ‘купил’ vs. sold ‘продал’.
(A) Jane bought $3.00 worth of bobby socks from Michael. ‘Джейн купил у Майкла на 3 доллара носков.’
(B) Michael sold $3.00 worth of bobby socks to Jane.
‘Майкл продал Джейн на 3 доллара носков.’
Пример 4. Выбор местоимения: Linda ‘Линда’ vs. she ‘она’.
(A) Linda flew to Washington.
‘Линда полетела в Вашингтон.’
(B) She flew to Washington.
‘Она полетела в Вашингтон.’
Пример 5. Синтаксический выбор: пассив vs. актив.
(A) John gave the book to Mary.
‘Джон отдал книгу Мэри.’
(B) Магу was given the book by John.
‘Мэри получила книгу от Джона.’
Пример 6. Jane was in hurry to finish her shopping.
It was a chore she particularly despised.
First, ( Jane bought $3.00 worth of bobby socks from Michael.
j*Michael sold $3.00 worth of bobby socks to Jane4. ‘Джейн спешила закончить покупки.
Это было занятие, которое она особенно презирала. Во-первых, Г Джейн купила у Майкла на 3 доллара носков.
(*Майкл продал Джейн на 3 доллара носков.’
Пример 7.
We knew that Магу took the train to New York with Linda, but didn’t realize that (Linda flew to Washington from there. l*she flew to Washington from there.
‘Мы знали, что Мэри поехала с Линдой поездом в Нью-Йорк, но не поняли, что (Линда полетела оттуда в Вашингтон.
1*Она полетела оттуда в Вашингтон.’
Пример 8.
John bought that great new book on data structures.
He read the first three chapters and then Г John gave the book to Mary, j *Mary was given the book by John.
‘Джон купил эту великую новую книгу по структурам данных.
Он прочитал первые три главы, и затем Г Джон отдал книгу Мэри.
|*Мэри получила книгу от Джона.’
3.