<<
>>

Использование схем в системе TEXT

Схемы в системе TEXT используются для управления процессом синтеза, а именно для принятия решения о том, что сказать дальше (на каждом данном шаге в процессе создания текста). Они выпол­няют роль плана текста.

Четыре схемы, разработанные нами по ре­зультатам анализа текстов (рис. 5—8), используются в качестве основы для схем системы TEXT.

Схемы были реализованы с использованием формализма, осно­ванного на расширенной сети переходов (ATN) (Woods, 1970). ATN есть представление грамматики в виде графа; оно позволяет приписывать дугам действия, которые могут создавать или прове­рять различные регистры. Первоначально формализм ATN был соз­дан для анализа предложений. В случае анализа предложения движение по некоторой дуге влечет за собой обработку некоторого слова из входной цепочки и расширение дерева синтаксического анализа таким образом, чтобы оно включало новое слово вместе с его категорией.

В системе TEXT ATN используется не для построения дерева анализа, а для построения дискурса. Движение по дуге соответствует выбору некоторой пропозиции для формируемого ответа, а состояния в сети соответствуют заполненным состояниям схемы ответа. В ходе этой процедуры обработки какой-либо цепочки не происходит; вмес­то этого обрабатывается фонд релевантных знаний, хотя и не по порядку, и он не обязательно оказывается полностью исчерпанным после того, как построен граф.

Существенное различие между ATN, используемой в системе TEXT, и обычной ATN касается управления альтернативными ва­риантами. В системе TEXT для каждого состояния вычисляются все возможные последующие состояния и для выбора одной из множества возможных дуг используется функция, осуществляющая фокусные ограничения. Таким образом, хотя исследуются все воз­можные последующие состояния, реально выбирается только одно. В этом состоит отличие от обычной ATN, где допускается отслежи­вание вариантов (backtraking) без каких-либо ограничений.

Как только схема для данной ответной реакции выбрана, ответ строится путем прохождения схемы, начиная с исходного состояния. Вопрос о том, можно ли пройти по данной дуге, решается в зависи­мости от типа дуги. В ATN-графах системы TEXT имеется пять типов дуг: fill, jump, push, subr и pop. Дуги fill используются для пред­ставления предикатов схемы. С каждым предикатом связана функ­ция, которая „сопоставляет" его с фондом релевантных знаний и вы­бирает все пропозиции фонда, соответствующие данному предикату. По дуге типа fill можно пройти в том случае, если ее предикат подби­рает хотя бы одну пропозицию из фонда. После прохождения дуги подобранная пропозиция включается в схему.

Дуги типа jump функционируют так же, как и в обычных ATN, и используются для обработки факультативных предикатов. Дуги subr (subroutine — подпрограмма) используются для упрощения графа. Они обозначают некоторый подграф, и по ним можно пройти в том случае, если можно пройти по названному подграфу. Дуги типа pop отмечают выход из графа, дуги push используются для рекурсии.

На рис. 10 — 14 показаны графы, в которых реализованы схемы, используемые в системе TEXT. Схемы системы TEXT не содержат тех предикатов исходных схем, для которых отсутствует информация в предикатной области системы, и, таким образом, эти схемы являются подмножествами соответствующих схем, полученных нами в результате предварительного анализа текстов (см.

рис. 5 — 8).

Граф идентификации системы TEXT (рис. 10 и 11) имеет в ка­честве первой дуги дугу типа fill, выходящую из начального состоя­ния ИД/11. Эта дуга представляет первый предикат схемы — предикат идентификации. За первой дугой следует факультативная дуга (subr Описание/), которая может быть пропущена, если выбра­на дуга jump, также выходящая из состояния ИД/ИД. Подграф, имеющий название Описание/ (рис. 11), представляет вторую строку исходной схемы и учитывает три предиката из этой схемы. За этим

ззо подграфом следует по крайней мере один предикат из подграфа Пример/ (то есть либо „конкретная иллюстрация", либо „основа­ние"). Дуга Пример/ ведет к состоянию ИД/ПР, из которого по дуге pop можно выйти из схемы. С другой стороны, можно получить

Рис. 10. Граф схемы идентификации.

еще несколько прогонов дуги Пример/ с помощью циклического возврата через состояние ИД/ПР или пройти по дугам факультатив­ных предикатов из подграфа Кон-цеп/, за которым опять следует еще одна факультативная дуга Пример/. Эти две последние дуги соответствуют двум последним строчкам исходной схемы (рис. 5).

И схема состава (рис. 12), и схема атрибутива (рис. 13) в систе­ме TEXT являются модифицированными версиями схем, получен­ных при анализе текстов. Граф состава имеет в качестве факуль­тативного начала предикат „атрибутива" или предикат „идентифика­ции", так что он может быть использован для построения ответов на запросы об имеющейся информации или об определениях. После состояния СОСТ/ВВЕД граф отражает соответствующую схему

Рис. 11. Подграфы схемы идентификации.

FILL АТРИБУТИВ

(рис. 6). Заметим, что две альтернативы, имеющие место в схеме („причина — следствие *" и „атрибутив *"), из версии системы TEXT исключены, остается лишь альтернатива, начинающаяся с предика­тов „глубинная идентификация"/„глубинный атрибутив". В граф включены только два предиката из последней строки схемы („атрибу­тив" и „аналогия").

Граф атрибутива в системе TEXT не включает имеющиеся в ис­ходной схеме (рис. 7) предикаты „ограничение", „вопрос", „пробле­ма", „ответ" и „противопоставление", поскольку они не отражены в предметной области базы данных. Кроме того, предикат исходной схемы „представитель" в версии системы TEXT передан как „клас­сификация", а предикаты „сравнение" и „противопоставление" — как „аналогия" (чтобы опираться на уже использовавшиеся пре­дикаты). Из последней строки исходной схемы в граф системы TEXT включен только предикат „объяснение".

Схема сравнения и противопоставления (рис. 14) была моди­фицирована для того, чтобы обеспечить равноправную противопос­тавленность этих понятий. Схема противопоставления, полученная

FILL '

Рис. 12. Граф состава.

FILL АТРИБУТИВ

"ИДЕНТИФИКАЦИЯ \ (ИСХОДНОЕ МНОЖЕСТВО) (ИСХОДНОЕ 1

МНОЖЕСТВОК™^—_ FILL атрибутив

FTI Ї OCHOR А НИР IT (СЛЕДУЮЩИЙ *

СОСТ/ИД ) ОСНОВАНИЕ / сост/ATP L у ЭЛЕМЕНТ

Исходное множество^ множества)

ИДЕНТИФИКАЦИЯ / / FILL ОСНОВАНИЕ

(СЛЕДУЮЩИЙ ЭЛЕМЕНТ / / (СЛЕДУЮЩИЙ ЭЛЕМЕНТ

МНОЖЕСТВА) / / МНОЖЕСТВА)

FILL АТРИБУТИВ /___________ /fill аналогия

Л Л(К0Н£ЦФОКУСНОГО МНОЖЕСТВА) МНОЖЕСТВА) '

из анализа текстов, предназначена для противопоставления главного понятия второстепенному. В большинстве случаев второстепенное понятие либо обсуждалось в предшествующем тексте, либо, по мне­нию автора, является известным читателю. В системе TEXT в настоя­щее время не сохраняются знания о предшествующей части дискурса, при этом модель пользователя строится только статически. Таким образом, система не знает, располагает ли пользователь большим объемом знаний об одном понятии, чем о другом, и сравнение должно носить уравновешенный характер. Эта уравновешенность

ззз

достигается за счет того, что вначале даются черты сходства между двумя объектами, а затем различия между ними.

Схема сравнения и противопоставления предписывает наличие контрастивной структуры, не уточняя, какие предикаты должны быть использованы. Чтобы это уточнить, схема системы TEXT пред-

Рис. 13. Граф атрибутива.

усматривает рекурсивное использование трех других схем. Рекур­сивное обращение к какой-либо схеме отмечается на графе дугой типа push. Когда происходит обращение к другой схеме, фонд знаний пополняется информацией, релевантной для этой части ответа (на рис. 14 это обозначается с помощью действия set (устанавливать, определять) на каждой дуге типа push).

В графе сравнения и противопоставления системы TEXT схема идентификации используется для установления сходства между дву­мя объектами. Схема, используемая для контрастивной части

PUSH АТРИБУТИВ (ОЧЕНЬ ПОХОЖИ)?

JUMP

(НЕТ СХОДСТВА)?

PUSH ИДЕНТИФИКАЦИЯ ^СХОДСТВО)?

МНОЖЕСТВО ИЗ ФОНДА ЗНАНИЙ = ФАКТЫ О МНОЖЕСТВЕ СУЩНОСТЕЙ

PUSH ИДЕНТИФИКАЦИЯ (ОЧЕНЬ НЕПОХОЖИ)?

МНОЖЕСТВО ИЗ ФОНДА ЗНАНИЙ = ФАКТЫ О СУЩНОСТИ 2

МНОЖЕСТВО ИЗ ФОНДА ЗНАНИЙ=ФАКТЫ О СУЩНОСТИ 1

PUSH СОСТАВ (РАЗЛИЧИЕ МЕЖДУ КЛАССАМИ)?

FILL УМОЗАКЛЮЧЕНИЕ

POP

PUSH

ИДЕНТИФИКАЦИЯ (СЛЕДУЮЩИЙ ЭЛЕМЕНТ МНОЖЕСТВА)?

МНОЖЕСТВО ИЗ ФОНДА ЗНАНИЙ = ФАКТЫ О СЛЕДУЮЩЕЙ СУЩНОСТИ

'PUSH АТРИБУТИВ (СЛЕДУЮЩИЙ ЭЛЕМЕНТ VJUMP JUMP/ МНОЖЕСТВА)?

' МНОЖЕСТВО ИЗ ФОНДА ЗНАНИЙ = ФАКТЫ О СЛЕДУЮЩЕЙ СУЩНОСТИ

Рис. 14. Граф сравнения и противопоставления.

ответа, зависит от того, какова семантическая информация о срав­ниваемых сущностях. Может использоваться либо схема идентифи­кации, либо схема атрибутива, либо схема состава в зависимости от того, являются ли эти две сущности совсем непохожими, очень

похожими или занимают промежуточное положение (что определяет­ся с помощью проверок на каждой из этих трех дуг типа push). Эта проблема обсуждается ниже, в разделе, описывающем выбор схемы. Схема сравнения и противопоставления завершается прямым сравнением двух сущностей через предикат „умозаключение".

5.2.1. Формирование ответа на вопрос.

Чтобы ответить на вопрос, система TEXT прежде всего выбирает схему, управляющую формированием ответа. Затем ответ форми­руется путем заполнения схемы.

5.2.2. Выбор схемы.

Выбор стратегии ответа в соответствии с целью дискурса до­стигается в системе TEXT через установление соответствия между схемами и типами вопросов. Например, в случае вопроса, касающего­ся определения термина, применимы одни схемы, в случае вопроса, касающегося описания некоторой информации,— другие. Распреде­ление схем по типам вопросов представлено в сжатом виде на рис. 15.

Рис. 15. Схемы, обслуживающие разные типы вопросов системы TEXT.

Запросы об определениях

Идентификация

Состав

Запросы об имеющейся информации

Атрибутив

Состав

Запросы о различиях между объектами

Сравнение и противопоставление

На основе данного типа вопросов выбираются связанные с ним схемы, способные служить в качестве структуры ответной реакции. Далее из этого множества выбирается одна-единственная схема на основе той информации, которая имеется для ответа на вопрос. Это один из случаев, когда семантическая информация взаимодействует с информацией о структуре дискурса для определения структуры синтезируемого текста.

В ответ на запросы об определениях и об имеющейся информа­ции схема состава выбирается в том случае, если фонд релевантных знаний содержит „богатое” описание составных частей запрашивае­мого объекта и меньше информации о самом объекте. Эта ситуация возникает тогда, когда запрашиваемый объект находится в иерархии базы знаний на более высоком уровне, чем некоторый заранее заданный уровень. Заметим, что чем более высокое место в иерар­хии занимает некая сущность, тем меньше имеется информации для описания представляемого ею множества частных случаев, поскольку чем больше оказывается класс, тем меньше общих свойств у членов этого класса. Если ситуация не такова, то используется схема идентификации для вопросов об определении и схема атрибутива для вопросов об информации. Так, для вопроса „Что такое управляемый снаряд?” (пример 10) выбирается схема состава, поскольку о под­типах управляемых снарядов имеется больше информации, чем о самом управляемом снаряде, тогда как для вопроса „Что такое корабль?” (пример 11) выбирается схема идентификации.

Схема сравнения и противопоставления всегда выбирается в ответ на запрос о различии между объектами, однако для определе­ния подсхемы, обслуживающей контрастивную часть ответа, исполь­зуются сведения о типе информации, находящейся в фонде релевант­ных знаний. Когда два объекта концептуально очень близки (см. McKeown, 1982), выбирается подсхема атрибутива. Это делается для того, чтобы описать подробные различия между ними (пример 12) 12. Когда два объекта очень сильно различаются, выбирается подсхема идентификации. Это делается для того, чтобы описать ро­довые различия между ними (пример 13). В остальных случаях вы­бирается подсхема состава.

Пример 10.

(определение УПРАВЛЯЕМЫЙ)

; Что такое управляемый снаряд?

Выбранная схема: состав

Словарная обработка. Вход в тактический компонент.

Управляемый снаряд — это самодвижущийся снаряд. В базе дан­ных ONR существует два типа управляемых снарядов: торпеды и ракеты. У ракеты цель находится в воздухе или на поверхности зем­ли. У торпеды цель находится под водой. Местонахождение цели ра­кеты отмечается атрибутом БД ОПИСАНИЕ, а характеристики поле­та вводятся атрибутом БД ВЫСОТА. Подводные характеристики торпеды вводятся атрибутами БД под рубрикой ГЛУБИНА (напри­мер, МАКСИМАЛЬНАЯ ГЛУБИНА ДЕЙСТВИЯ). Атрибуты БД для управляемого снаряда — ВРЕМЯ ДО ЦЕЛИ & ЕДИНИЦЫ, ГО- РИЗ. ДАЛЬНОСТЬ & ЕДИНИЦЫ и НАЗВАНИЕ.

Пример 11.

(определение КОРАБЛЬ)

; Что такое корабль?

Выбранная схема: идентификация.

Словарная обработка. Вход в тактический компонент.

Корабль — это водное транспортное средство, движущееся по поверхности воды. Характеристики его поверхностного хода вводят­ся атрибутами БД ВОДОИЗМЕЩЕНИЕ и ОСАДКА. В число других атрибутов БД для корабля входят: МАКСИМАЛЬНАЯ СКОРОСТЬ, ДВИГАТЕЛЬ, ТОПЛИВО (ЗАПАС ТОПЛИВА и ВИД ТОПЛИВА), РАЗМЕРЫ, ДАЛЬНОСТЬ ПЛАВАНИЯ В ЗАВИСИМОСТИ ОТ СКОРОСТИ и ОФИЦИАЛЬНОЕ НАЗВАНИЕ. Например, „DOW­NES” имеет МАКСИМАЛЬНУЮ СКОРОСТЬ 29, ДВИГАТЕЛЬ — ПАРОВУЮ ТУРБИНУ, ТОПЛИВО —810 (ЗАПАС ТОПЛИВА) и БУНКЕРНОЕ (ВИД ТОПЛИВА), РАЗМЕРЫ — 25 (ОСАДКА), 46 (ШИРИНА) и 438 (ДЛИНА) и ДАЛЬНОСТЬ ПЛАВАНИЯ В ЗА­ВИСИМОСТИ ОТ СКОРОСТИ — 4200 (ЭКОНОМИЧНАЯ ДАЛЬ­НОСТЬ ПЛАВАНИЯ) и 2200 (ДАЛЬНОСТЬ АВТОНОМНОГО ПЛАВАНИЯ).

Пример 12.

(различие КОРАБЛЬ-СОПРОВОЖДЕНИЯ КРЕЙСЕР)

; Чем отличается корабль сопровождения от крейсера?

Выработанная схема: сравнение и противопоставление-

атрибутив.

Словарная обработка. Вход в тактический компонент.

Крейсер и корабль сопровождения — надводные корабли. Ха­рактеристики надводного хода корабля вводятся атрибутами БД ВОДОИЗМЕЩЕНИЕ и ОСАДКА. Атрибуты БД корабля: МАКСИ­МАЛЬНАЯ СКОРОСТЬ, ДВИГАТЕЛЬ, ТОПЛИВО (ЗАПАС ТОП­ЛИВА и ВИД ТОПЛИВА), РАЗМЕРЫ, ДАЛЬНОСТЬ ПЛАВАНИЯ В ЗАВИСИМОСТИ ОТ СКОРОСТИ и ОФИЦИАЛЬНОЕ НАЗВА­НИЕ. Корабли сопровождения имеют водоизмещение от 3400 до 4100. Все корабли сопровождения в базе данных ONR имеют: ЗАМЕ­ЧАНИЯ — 0, ТИП ТОПЛИВА — БУНКЕРНОЕ, ВЫСОТА МАЧ­ТЫ — 85 и ДВИГАТЕЛЬ — ПАРОВАЯ ТУРБИНА. Корабли сопро­вождения имеют на борту от 2 до 22 торпед, 16 ракет и 1—2 орудия. Крейсеры имеют ДВИГАТЕЛЬ — ПАРОВУЮ ТУРБИНУ и ДЛИ­НУ — от 510 до 673. Все крейсеры в базе данных ONR имеют: ЗАМЕ­ЧАНИЯ — 0, ТИП ТОПЛИВА — БУНКЕРНОЕ. Все крейсеры имеют на борту от 8 до 42 торпед, от 4 до 98 ракет и от 1 до 4 орудий. Таким образом, корабль сопровождения имеет меньшую ДЛИНУ и мень­шее ВОДОИЗМЕЩЕНИЕ, чем крейсер.

Пример 13.

(различие ЭСМИНЕЦ БОМБА)

; Какая разница между эсминцем и бомбой?

Выбранная схема: сравнение и противопоставление-

идентификация.

Словарная обработка. Вход в тактический компонент.

Эсминец — это надводный корабль с ОСАДКОЙ от 15 до 222. Корабль — это транспортное средство. Бомба — это свободно падаю­щий снаряд, цель которого расположена на поверхности земли. Свободно падающий снаряд — это смертоносное средство разруше­ния. Таким образом, бомба и эсминец — совсем разные вещи.

5.2.3.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Использование схем в системе TEXT:

  1. ПРОБЛЕМА СООТНОШЕНИЯ МЫШЛЕНИЯ И ЯЗЫКА В ТРУДАХ Г. В. ЛЕЙБНИЦА, И. КАНТА, Ф. В. ШЕЛЛИНГА И Г. ФРЕГЕ 
  2. ФИЛОСОФИЯ И ЕЕ ОТНОШЕНИЕ И КАРДИНАЛЬНЫМ ВОПРОСАМ ЛИНГВИСТИЧЕСКОЙ НАУКИ 
  3. СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
  4. Сущность, содержание и структура художественно-проектной деятельности студента-дизайнера
  5. Билл Ашкрофт Язык
  6. Новая имперская история и вызовы империи Империя: эффект остранения
  7. Сравнительный обзор поисковых систем
  8. Приложение 2 Словарь терминов
  9. Т
  10. Эйнар Хауген НАПРАВЛЕНИЯ В СОВРЕМЕННОМ ЯЗЫКОЗНАНИИ
  11. КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА: МОДЕЛИРОВАНИЕ ЯЗЫКОВОГО ОБЩЕНИЯ
  12. Рекурсивность схемы.
  13. Использование схем в системе TEXT
  14. Заполнение схемы.
  15. ОЦЕНКА ОТВЕТОВ, СИНТЕЗИРУЕМЫХ СИСТЕМОЙ TEXT
  16. ЗАКЛЮЧЕНИЕ
  17. ПРИМЕЧАНИЯ