<<
>>

АНАЛИЗ, ОСНОВАННЫЙ НА СЕМАНТИЧЕСКИХ ПАДЕЖНЫХ ФРЕЙМАХ

Предлагаемый нами подход существенно отличается от метода анализа, основанного на сетях переходов. Мы опираемся на резуль­таты исследований, проведенных недавно в университете Карнеги— Меллон (УКМ) Карбонеллом, Хейзом и другими (Carbonell and Hayes, 1981; Hayes and Carbonell, 1981; Hayes, 1984; Carbonell and Hayes, 1984) по созданию системы понимания письменной речи, ограниченной рамками определенной предметной области.

Особое внимание в этих исследованиях было уделено обра­ботке неправильно построенных входных сообщений. Метод, позво­ляющий обрабатывать осмысленные, но потенциально грамматиче­ски несовершенные или неполные высказывания, мы называем акти­визацией семантических падежных фреймов (semantic caseframe instantiation). В отличие от методов, использующих сети переходов, методы падежных фреймов дают возможность анализатору начи­нать интерпретацию обрабатываемого высказывания с его наиболее значимых частей, постепенно расширяя затем эти острова интерпре­тации за счет обработки менее значимых сегментов. Так как более значимые слова обычно и более длинные, они скорее всего распозна­ются надежно, и, таким образом, острова значимости оказываются связанными с островами достоверного распознавания. Семантиче­ские и синтаксические ожидания, возникающие в результате обра­ботки более значимых частей входного высказывания, могут быть использованы для распознавания менее надежных сегментов и для выдвижения гипотез об их значении.

Принципиальная разница между методом, основанным на сетях переходов, и методом падежных фреймов заключается в том, на ка­ком уровне кодируется используемая семантическая и синтаксиче­ская информация. В методе падежных фреймов информация коди­руется на более абстрактном уровне, что позволяет интерпретиро­вать ее многими способами. В методике же сетей переходов информа­ция „компилируется" в сеть на более низком и менее гибком уровне, что существенно сужает круг возможных интерпретаций тех же са­мых знаний. Как будет сказано ниже, возможность использования семантической и синтаксической информации принципиально интер­претирующим образом является ключом к успешной интеграции ме­тодов анализа устной и письменной речи.

^Центральная идея, лежащая в основе метода падежных фрей­мов, состоит в следующем: имеется главное, ключевое понятие (head concept), которое модифицируется набором связанных с ним поня­тий или падежей, находящихся в четко определенных семантических отношениях с главным понятием. Первоначальная концепция падеж­ных фреймов, ориентированная на проблемы теоретической линг­вистики, была предложена Филлмором (Fillmore, 196®) и пре­дусматривала небольшой набор универсально применимых падежей. В ходе наших недавних исследований в УКМ эта концепция была приспособлена для работы в рамках ограниченной предметной об­ласти: для каждого понятия, связанного с главным понятием, вводил­ся узкоспециализированный падеж. Рассмотрим, например, падеж­ный фрейм, представленный на рис. 1, который определяет действие глагола переслать (forward) в системе электронной почты. Употреб­ляемая система обозначений используется в анализаторе речи, опи­сываемом ниже. Не входя в подробности обозначений, опишем ос­новные компоненты этого фрейма.

Он определяется как глагольный фрейм или как падежный фрейм несамостоятельного предложения. Словами-Заголовками (Head Forms) этого фрейма могут быть гла­голы послать, переслать (forward, resend); фрейм имеет четыре паде­жа: Agent (лицо, осуществляющее отправку сообщения), MsgObj (сообщение, которое пересылается), MsgRecipientObj (лицо, которо­му пересылается сообщение) и CCRecipientObj (лица, которые полу­чают копию пересылаемого сообщения).

Рис. /. Падежный фрейм „послать".

#S(ED)

Имя Действие-Послать

Тип Глагол

Семантические Падежи (

#S(SC

Имя Agent отправитель

Заполнитель (MailAdrDesc)

Синтаксический-Падеж (Субъект))

#S(SC

Имя MsgObj сообщение

(Заполнитель (Msg ObjDesc)

Синтаксический-Падеж (Прямой Объект))

#S(SC

Имя MsgRecipientObj получатель

Заполнитель (Mail Adr Desc)

Синтаксический-Падеж (Непрямой-Объект Предложный-Объект) Падежный-Показатель (к))

#S(SC

Имя CCRecipientObj получатель копии

Заполнитель (MailAdrDesc) ;под копирку

Синтаксический-Падеж (Предложный-Объект)

Падежный Показатель (копирование под копирку; копирование))) Обязательные-Сем.-Пад. (MsgObj MsgRecipientObj Agent)) Слова-Заголовки (послать, переслать)

Падеж MsgObj должен быть заполнен (InstanceOf) дескрипцией MsgObjDesc (которая определяется другим падежным фреймом, приводимым ниже), а все остальные падежи заполняются дескрип­циями MailAdrDesc (которые определяются падежным фреймом для лица или „почтового адреса"). Все эти падежи обязательны, за исключением CCRecipientObj, который факультативен. Кроме этой, чисто семантической информации, падежный фрейм содержит также некоторые синтаксические сведения: падеж Agent реализуется как синтаксический субъект; MsgObj — как прямой объект, MsgReci- pientObj — или как непрямой объект, или как объект (РгерО) в предложной составляющей, в которой предлогом (CaseMarker) является to ‘к’; CCRecipientObj реализуется как предложная сос­тавляющая с „предлогами": или копирование (copying), или копиро­вание под копирку (ccing).

Рис. 2. Падежный фрейм „сообщение" (message).

#S(ED

Имя MsgObjDesc Тип Существительное Семантические Падежи (

#S(SC

Имя Descriptors

Конкретные элементы (новый свежий старый просмотренный непро­смотренный)

Синтаксический-Падеж (приименная-препозиция))

#S(SC

Имя Determiners

Конкретные элементы (опр. артикль этот тот любой неопр. артикль

каждый)

Синтаксический-Падеж (приименная препозиция))

#S(SC

Имя MsgOriginObj ;место,откуда поступило сообщение

Заполнитель (MailAdrDesc)

Падежный-Показатель (от)

Синтаксический-Падеж (Предложный объект))

#S(SC

Имя TimeObj ;указание времени

Заполнитель (HourDesc MonthDesc DayDesc)

Падежные-Показатели (от перед после с в к)

Синтаксический-Падеж (Предложный Объект)))

Слова-Заголовки (сообщение корреспонденция))

Падежные фреймы используются для описания не только дейст­вий, но и объектов. На рис. 2 представлен номинативный фрейм для объекта-сообщения в нашей системе электронной почты. Фрейм имеет ту же самую форму, что и глагольный фрейм, за исключением Слов-Заголовков, которые в этом случае соответствуют ядерным существительным именной группы, описывающей сообщение, цир­кулирующее в системе электронной почты. Кроме того, падеж Descriptors имеет новый синтаксический падеж приименной препо­зиции, который означает, что в этом падежном фрейме в адъектив­ной позиции могут находиться конкретные элементы (новый, свежий И т. д.).

Располагая подходящим падежным фреймом для MailAdrDesc и обладая знанием того, что представляют собой такие понятия, как предложение, именная группа, прямой объект, адъективная позиция и т. д., мы можем считать, что приведенные выше падежные фреймы содержат достаточно информации для того, чтобы проанализировать такие предложения, как:

Forward to Jones at CMUA the message from Smith.

‘Перешлите Джоунзу на адрес УКМ сообщение от Смита.’

Did Brown resend any new messages to Green at BBN?

‘Послал ли Браун какие-либо новые сообщения Грину из фирмы BBN?’

What mail did Jones forward to Smith?

‘Какую корреспонденцию послал Джоунз Смиту?’

Brown is forwarding the recent messages to Green.

‘Браун посылает свежие сообщения Грину.’

Главный вопрос состоит в том, каким образом объединить инфор­мацию, содержащуюся в определениях (definitions) падежных фрей­мов, с синтаксическими знаниями, и тем самым проанализировать эти предложения и представить их в виде множества конкретных реализаций падежных фреймов.

В нашей более ранней работе с падежными фреймами, осу­ществленной в УКМ, этот вопрос решался следующим образом: син­таксические знания включались в код анализатора, и анализатор, используя эти знания, интерпретировал падежные фреймы. Так, например, алгоритмы, описанные в работе Carbonell and Hayes, 1981, используют для анализа семантические падежные фреймы, концентрируя свое внимание на предлогах (показателях падежа), а также на порядке следования субъекта, глагола, непря­мого и прямого объектов. К сожалению, предлоги — это обычно короткие функциональные слова, которые часто произносятся не­брежно и редко распознаются надежно. Поэтому при разработке метода обработки устной речи мы, сохранив без изменения нашу общую концепцию, внесли ряд модификаций в алгоритм анализа: используются те же самые падежные фреймы, но процесс интерпрета­ции несколько изменен.

Главное достоинство анализа с помощью метода падежных фреймов — это возможность применять множественные стратегии распознавания. Поскольку описание предметно-ограниченного языка в метрике падежных фреймов выполняется на таком высоком уровне абстракции, мы вольны интерпретировать его тем способом, какой наиболее уместен в данной ситуации. Падежные фреймы ука­зывают нам, какие компоненты и где надо искать. Но способ поиска жестко не задается. Он может быть организован на основе самой надежной информации, которой мы располагаем.

4.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме АНАЛИЗ, ОСНОВАННЫЙ НА СЕМАНТИЧЕСКИХ ПАДЕЖНЫХ ФРЕЙМАХ:

  1. Анализатор CASPAR.
  2. СЕМАНТИКО-СИНТАКСИЧЕСКИЙ АНАЛИЗ УСТНОЙ РЕЧИ: ПОДХОД, ОСНОВАННЫЙ НА СЕМАНТИЧЕСКИХ ПАДЕЖНЫХ ФРЕЙМАХ [35]
  3. АНАЛИЗ, ОСНОВАННЫЙ НА СЕМАНТИЧЕСКИХ ПАДЕЖНЫХ ФРЕЙМАХ
  4. 5. ВЫВОДЫ. НАПРАВЛЕНИЯ ДАЛЬНЕЙШИХ ИССЛЕДОВАНИЙ
  5. выводы
  6. ПРОГРАММЫ ФОРМИРОВАНИЯ СУЖДЕНИЙ, РАБОТАЮЩИЕ С ЕСТЕСТВЕННЫМ ЯЗЫКОМ