<<
>>

Система идентификации референта и модель ослабления дескрипции

В этом разделе дается описание компонента ослабления дес­крипции в контексте системы идентификации референта. Рассматри­вается, каким образом компонент ослабления использует разные виды знаний о дескрипциях и о реальном мире в процессе ослабле­ния неудачной дескрипции и замены ее на такую, референт которой может быть найден.

3.1.1 Обнаружение референта с помощью стандартного механизма референции

Идентификация референта означает обнаружение в реальном мире такого объекта, который соответствует дескрипции, данной говорящим (при этом объект должен обладать всеми признаками, содержащимися в дескрипции, но дескрипция не обязательно должна содержать все признаки объекта).

Такой процесс традиционно мо­делировался в прежних работах. Наш механизм референции прежде всего определяет, необходимо ли начинать поиск в базе знаний, отражающей внешний мир и обычно имеющей таксономическую организацию. Например, в системе, связанной со сборкой водяного насоса, компонент референции не будет осуществлять поиск референ­та (если на это не будет специальной команды) в том случае, когда в систему поступила группа существительного с неопределенным артиклем (что обычно указывает на новый или предполагаемый объект) или в том случае, когда дескрипция сформулирована очень туманно (а значит, неоднозначно). В ходе принятия такого рода решений могут быть использованы некоторые прагматические аспек­ты дискурса. Например, использование дейктического элемента в определенных группах существительного, как этот X или тот послед­ний X указывает на то, что объект либо упоминался ранее, либо уже был найден как референт какой-то другой дескрипции, а значит, его легче найти. В эти вопросы мы углубляться не будем.

База знаний содержит лингвистические описания и описание самого обозреваемого поля зрения слушающего. Для представления знаний используется язык KL-One (см. Brachman, 1977), удоб­ный для описания таксономической информации. KL-One состоит из понятий (CONCEPTS), их ролей (ROLEs) и связей между ними. CONCEPT представляет в системе множество элементов, которые может описывать это понятие. Связь SuperC („= = >“) между ними указывает на отношение включения одного множества в другое. Рассмотрим пример, представленный на рис. 4. Связь SuperC, нап­равленная от понятия В к понятию А, означает включение мно­жества В во множество А (В^А). „Индивидуальное понятие" (INDIVIDUAL CONCEPT) означает, что это множество представле­но единичным элементом. Индивидуальное понятие D на рис. 4. ха­рактеризуется как уникальный элемент множества, задаваемого понятием С. Роли обозначают то же, что в других языках обозначено атрибутами или слотами, а именно: функциональные отношения между данным понятием и другими понятиями, причем эти отно­шения задают ограничения на заполнение конкретного слота его значениями.

После того как принято решение начать поиск в базе знаний, включается программа поиска референта. Она использует для этого классификатор системы KL-One (Lipkis, 1982). Условия поиска определяются механизмом фокусирования, основанным на методе Б. Грош (Grosz, 1977). Классификатор должен обнаружить все от­ношения подчинения между новой, только что полученной дескрипци­ей и всеми другими понятиями, входящими в состав заданной таксономии.

Рис. 4. Пример отражения таксономии в языке представле­ния знаний KL-One.

Иначе говоря, в результате такого поиска входная дескрипция подчиняет себе дескрипции всех возможных референтов. Если при этом входной дескрипции будет соответствовать более одного рефе­рента, то она считается неоднозначной. Если входная дескрипция подчиняет себе только одно понятие из базы знаний, то оно и будет считаться искомым референтом. И, наконец, если в классификации объектов не найдется ни одного подходящего понятия, то програм­ма включает в работу механизм ослабления. До того, как предпри­нять ослабление дескрипции, наша система FWIM проверяет, явля­ется ли данный сбой результатом прагматической ошибки неудачно­го формулирования самой дескрипции. Далее в статье мы рассмот­рим только тот случай, когда система не может найти референта.

3.1.2 Подсчет «голосов» за и против ослабления описания

Если программе не удается найти референта, то приходится определять, почему это произошло: из-за дескрипции (т. е. собст­венно неудачи референции) или в силу внешних обстоятельств. Пу­таница, вызванная внешними обстоятельствами, могла произойти, например, при различиях в восприятии разговора говорящим и слу­шающим, из-за неправильного употребления определения, из-за оши­бочно выполненного действия и пр. Правила прагматики определяют, следует ли в каждом конкретном случае производить ослабление дескрипции. Так, например, система проверяет, не была ли вызвана неудача в поиске референта явлениями фокуса, метонимии и си­некдохи13. Эти правила не рассматриваются в данной статье, в связи с чем мы перейдем к тому случаю, когда трудности вызваны неудач­ной дескрипцией.

3.1.3 Ослабление дескрипции

В том случае, когда необходимо ослабить дескрипцию, система должна выполнить следующие действия:

— найти потенциальных кандидатов в референты;

— определить, какие признаки во входной дескрипции следует ослабить и в каком порядке это делать; затем, в соответствии с избранным порядком ослабления признаков упорядочить и предпола­гаемые референты;

— выбрать подходящий способ ослабления и применить его к входной дескрипции.

Поиск потенциальных референтов

Прежде чем производить ослабление дескрипции, алгоритм выбирает потенциальных кандидатов в референты из числа элемен­тов, находящихся в поле зрения говорящего. Делается это так: ал­горитм „пробегает" по той части структурированной базы знаний, которая выделилась с помощью механизма фокусирования и ока­залась наиболее близкой к дескрипции, данной говорящим. При этом просмотре базы знаний происходит движение вверх и вниз по связям SUPERC, обозначающим иерархию понятий, и проверка каждого кандидата. Механизм выявления частичного совпадения, представленный в системе KL-One, определяет степень близости дескрипции кандидата к входной дескрипции и приписывает ей числовое значение (перед этим вычисляются показатели близости на уровне признаков, что помогает расположить признаки в опре­деленной последовательности и определить степень их совпадения с признаками входной дескрипции). Информация о соотношении кандидатов основывается только на знаниях, отраженных в языке KL-One; при этом учитываются отношения включения между зна­чениями признаков или их равенство. Никакая информация о пред­метной области не принимается во внимание. Наиболее подходящие дескрипции из базы знаний (найденные в процессе упорядочения с применением некоторого критерия отсечения) считаются потен­циальными кандидатами в референты. Последующее упорядочение признаков и кандидатов в референты для целей ослабления дескрип­ции производится уже с учетом предметной области.

Упорядочение признаков и потенциальных референтов для применения механизма

ослабления

На этом этапе система референции исследует входную дескрип­цию и кандидатов в референты, определяет, какие признаки осла­блять и в каком порядке, и устанавливает общую последователь­ность ослабления признаков 14. Эта последовательность очень важна, поскольку если производить ослабление одновременно по разным критериям, но без единого порядка, то можно в результате полу­чить несколько разных референтов.

Последовательность признаков используется системой для того, чтобы определить, в каком порядке к отобранным на предыдущем этапе кандидатам будут применяться правила ослабления.

Процесс преодоления неудачи референции опирается на знания о языке, о прагматике, о дискурсе, о предметной области, о пер­цептивных признаках, об иерархической структуре понятий, о преды­дущих пробах и ошибках. Подробнее об этом рассказывалось в раз­деле 3. Эти виды знаний помогают установить порядок признаков для применения механизма ослабления. Информация каждого типа записана в программе в виде некоторого множества правил ослабле­ния. Большинство правил подсказаны подмеченными в протоколах трудностями в диалоге. Написаны они на языке, близком к Проло­гу. На рис. 5. дано одно из правил, использующих знания о языке.

Рис. 5. Пример правила ослабления дескрипции на основе знаний о языке.

Содержания правил, использующих знания о языке: ослаблять признаки во входной дескрипции в следующем порядке: 1) прилагательные, 2) предложные сочетания, 3) относительные придаточные предложения и именную часть составного сказуемого.

Пример правила:

Ослабить-Признак-Перед (v 1, v2)

-«-Дескрипция Объекта (d)

Дескриптор Признака (v 1)

Дескриптор Признака (v 2)

Признак В Дескрипции (i/l, d)

Признак В Дескрипции (v 2, d),

Равно (синтаксич-форма (v 1, d) „ПРИЛАГ")

Равно (синтаксич-форма (v2, d) „ОТНОСИТ-ПРИДАТ")

Это правило появилось вследствие того, что, как было заме­чено, говорящий почти всегда располагает особо важную часть информации в конце дескрипции (там, где она отделена от основной части и поэтому выделяется в произношении). Правило на рис. 5 просто отражает тот факт, что относительное придаточное предло­жение располагается в конце группы существительного, а прилага­тельные — всегда стоят до него, поэтому те признаки, которые выра­жены прилагательными, должны быть ослаблены в первую очередь, а признаки, представленные придаточными предложениями,— во вторую. Но в более общей и более удобной форме это правило звучит следующим образом: информация, помещенная в конце дескрипции, обычно более значима (иначе говоря, она больше в фокусе говоря­щего) .

Рис. 6. Два правила ослабления дескрипции на основе знаний о дискурсе.

Правила ослабления дескрипции, связанные с перемещением фокуса внимания:

Пометить-Возможное-Смешение (и)

Высказывание (и). Фальстарт (и)

Пометить-Возможное-Смешение (d)

Объект-Дескр. (d), Самокоррекция (d),

где

Фальстарт (и): Этот предикат устанавливает, имел ли место в некотором высказывании „ы“ фальстарт. Наличие фальстартов должно улавливаться анализатором.

Самокоррекция (d): Этот предикат ищет в дескрипции ,,d“ самокоррекцию. Как и в случае фальстарта, задача ее обнаружения во входном сообщении возлагается на анализатор.

На рис 6. приводятся два правила ослабления дескрипции на основе знаний о дискурсе. Правила отмечают возможную неожидан­ную смену фокуса. Они имитируют деятельность слушающего по обнаружению возможного смешения фокусов внимания со стороны говорящего в ходе идентификации референта в том случае, если го­ворящий сам прерывает свое высказывание 15. Прерывание может быть двух типов — „фальстарт" и „самокоррекция". При фальстар­те говорящий начинает описывать объект, затем вдруг резко оста­навливается, давая эмоциональную оценку своей речи, и начинает описание заново (см. также работу Р о 1 а п у і, 1978, о „фальстар­тах") . Такие восклицания, как, например,,,Фу-ты!", „Нет-нет, не то!", „А, не так" и тому подобные сигналы фальстарта, дают понять слу­шающему, что возникло какое-то затруднение, хотя и не указывают, где именно. Источник затруднения может корениться в текущем высказывании или в каком-то из предыдущих. Говорящий очень часто (ошибочно) думает, что слушающему ясно, что он имеет в виду.

Слушающий, в свою очередь, обычно считает, что затруднение выз­вано текущим высказыванием. Тем не менее, слушающему следует запомнить, в каком месте диалога произошел фальстарт, чтобы вернуться к нему и осмыслить услышанное по-новому, если потре­буется. Самокоррекция не так резко перебивает дискурс, как фаль­старт, и яснее указывает на источник неудачи. Она представляет собой изменение части высказывания, которое вносится сразу же, по ходу произнесения самого высказывания. Весьма типичны, ска­жем, такие описания с самокоррекцией: она — трубка то есть или большая синяя — э — фиолетовая трубка. Так же, как и фаль­старты, эти места в описании чреваты ошибками, поэтому слушаю­щий должен уметь их выделять.

Каждый вид знаний диктует свою частичную упорядоченность признаков при их ослаблении . В каждом частично упорядоченном множестве элементы сортируются топологически, что позволяет срав­нивать такие множества между собой в едином формате. Затем все частично упорядоченные множества рассматриваются вместе. Пред­положим, например, что из перцептивных знаний следует, что мы должны ослабить признак цвета. Однако если цветовой признак содержится в относительном придаточном предложении, то знания о языке снизят ранг цветового признака, то есть поставят его ближе к концу в списке характеристик, предназначенных для ослабления.

Поскольку разные виды знаний дают, как правило, разное частич­ное упорядочение признаков, то эти различия могут привести к кон­фликту. Для разрешения этого и подобных конфликтов предназна­чен алгоритм выбора наилучшего кандидата. Его целью является такое упорядочение кандидатов в референты Сі, С2, ... , Сп, чтобы ослабление прежде всего применялось к наилучшему кандидату, затем к наилучшему из оставшихся и т. д. Наилучшим являются те кандидаты, которые лучше всего соответствуют предложенным упорядочениям признаков. Сначала алгоритмом исследуются все кандидаты в референты и упорядоченные множества признаков по каждому виду знаний. Для каждого кандидата С / (на основе упоря­дочения признаков по одному из видов знаний) алгоритм вычисляет степень изменения первоначальной дескрипции D в том случае, если она будет ослаблена до такого варианта, который будет явно иметь своим референтом С/. Механизм вычисления (этой степени изменения дескрипции) ориентирован на минимизацию количества ослабляемых признаков при попытке ослаблять призна­ки в строго заданном порядке и в то же время на ослабле­ние прежде всего тех признаков, которые ближе к началу в списке характеристик, рекомендуемых для ослабления 17.

Такой эвристический метод позволяет очень просто отражать в получаемом числовом показателе, насколько конкретный кандидат соответствует данному упорядочению признаков. Отметим, что такой способ вычисления может выбрать кандидата Сі, при том, что для него требуется ослабить больше признаков в D, чем для кандидата Сг, но зато его признаки следуют в списке характеристик, рекомендуе-

Дескрипция, / ’’Закругленная бордовая деталь,

данная говорящим \ большая такая”

Цвет: Бордовый Форма: Круглая Функция: Деталь Размер: Большой

D

Входное представление дескрипции

Цвет: Красный Форма: Цилиндр Состав: Пластик

Цвет: Оранжевый Форма: Круглая Функция: Труба

Цвет: Красный Форма: Брусок Функция: Подставка

С„

С2

Cl

Объекты-кандидаты

(Языковые знания)

Цвет < Форма < Функция < Размер (Перцептивные знания)

Цвет или Форма < Функция < Размер

Частичное упорядочение признаков для их ослабления с использованием правил, основанных на различных источниках знаний

Цвет < Форма или Функция или Размер [ерархические знания)

Переупорядочение

объектов-кандидатов

Цвет: Красный Форма: Цилиндр Состав: Пластик

Цвет: Оранжевый Форма: Круглая Функция: Труба

Цвет: Красный Форма: Брусок Функция: Подставка

С2 С, Сп

Рис.. 7. Переупорядочение кандидатов в референты.

мых для ослабления, раньше, чем признаки С2. Алгоритм проводит вычисление показателя для С/ по каждому виду знаний и суммирует их, получая общий показатель. Затем все С/ упорядочиваются в соответствии с полученными общими показателями (начиная с наи­меньших значений).

На рис. 7 показана работа алгоритма выбора наилучшего кан­дидата. В верхней части рисунка помещена дескрипция, данная го­ворящим. Далее представлено множество указанных в ней призна­ков и приписанных им значений (то есть пары типа „Цвет: бордо­вый") . В качестве потенциальных кандидатов в референты выступают объекты реального мира, выделенные механизмом выбора объектов на основе частичного совпадения. Они обозначены в следующем ряду (Сі, С2, ... , СЛ). В прямоугольниках даны множества признаков и их значений, описывающих объект.

Далее алгоритмом генерируются частично упорядоченные мно­жества признаков, предлагающие порядок их ослабления в исход­ной дескрипции, по одному множеству для каждого вида знаний (перцептивных, лингвистических, иерархических). Знания о языке, например, предлагают такой порядок ослабления: сначала цвет или форма, затем функции, затем размер. Наконец, кандидаты в ре­ференты переупорядочиваются в соответствии с информацией, выра­женной в исходной дескрипции и с частично упорядоченными мно­жествами признаков.

Выбор методов ослабления дескрипции

После того как было сформировано упорядоченное множество кандидатов в референты, механизм ослабления переходит к третье­му шагу: он пробует найти подходящие методы ослабления приз­наков, для которых только что было получено несколько вариантов упорядочения (успешное обнаружение таких методов оправдывает ослабление исходной дескрипции до требований какого-то конкрет­ного кандидата в референты). Алгоритм ищет методы ослабления до тех пор, пока один из кандидатов в списке потенциальных референтов не совпадет с ослабленным описанием. На этом этапе снова исполь­зуются знания разных видов.

Ослаблению могут быть подвергнуты многие аспекты дескрип­ции, предложенной говорящим, среди них — сложные отношения, указанные в дескрипции индивидуальные особенности референта, направленность фокуса внимания, который очерчивает область по­иска референта в реальном мире. Под сложными отношениями мы имеем в виду пространственные отношения (например, отвер­стие возле верхнего края трубки), сравнения (трубка побольше), отношения превосходства (самая большая трубка). Все они могут подвергаться ослаблению так же, как и более простые признаки объекта (размер, цвет), упомянутые в дескрипции.

Существуют три стратегии ослабления дескрипции, каждая из них применима к любой части дескрипции. Эти стратегии таковы:

(1) Отбросить ошибочное значение признака.

(2) Расширить или сузить значение признака, выбирая новое значение как можно ближе к старому (то есть осуществляется просмотр иерархии подчиненности признаков).

(3) Попытаться применить значение какого-то другого приз­нака, исходя из каких-то внешних соображений (например, зна­ния о том, что люди часто оговариваются, путая слова, связанные отношением противоположности, типа отверстие и штырь, как это было в отрывке 7).

Выбирая стратегию ослабления, сначала пробуют применить наи­менее крутые меры. Стратегия (1) является самой радикальной,

(2) — наименее радикальной, а (3) занимает промежуточное поло­жение.

Очень часто объекты, находящиеся в фокусе, неявно вносят в него другие, связанные с ними объекты (Grosz, 1977; Webber, 1978). Поэтому части объекта, находящиеся в фокусе, вполне могут быть кандидатами в референты, и их стоит проверить. Иногда гово­рящий может отнести признак отдельной части ко всему объекту (так, например, плунжер, который состоит из красной ручки, метал­лического стержня, синей головки и зеленой манжеты, может быть назван зеленым плунжером). В этих случаях механизм ослабления строит новую дескрипцию, опираясь на отношение „часть — целое".

Три вышеприведенных стратегии ослабления реализованы в про­грамме набором иерархически организованных процедур, которые мы называем методами ослабления. Каждая процедура рассчитана на ослабление определенного типа признаков и сама выбирает необходимые виды знаний для своей работы. Так, например, про­цедура генерации сходных значений признаков разделяется на не­сколько процедур: генерации сходных значений формы, генерации сходных значений цвета и генерации сходных значений размера.

Каждая такая специализированная процедура делает, по суще­ству, одно и то же: сначала пытается ослабить значение признака до такого, которое было бы наиболее близко к исходному или как-то связано с ним (например, при ослаблении признака цвета красный мы предпочтем сначала попробовать свести его к розовому, а уже затем — к синему). Если это не удается, то ослабляемый признак заменяется на другие, более далекие 18. Такая замена, по существу, ничем не лучше простого отбрасывания признака. (...) [28]

Цель компьютерной реализации разработанного нами механиз­ма референции и преодоления коммуникативных неудач состояла в том, чтобы продемонстрировать имитацию работы такого модуля в составе системы общения с ЭВМ на естественном языке. Мы, правда, не использовали какой-либо конкретный семантико-синтак- сический анализатор, а просто считали, что на вход нашего компо­нента подается такое представление реплик, которое мог бы давать упомянутый анализатор. А именно, в качестве входного материала у нас служило представление на языке KL-One той семантической интерпретации, которая строилась для некоторой дескрипции какого- то объекта из предметной области, связанной со сборкой водяного насоса.

Мы построили также на языке KL-One сеть из 250 понятий, в которой отражены многие детали водяного насоса и их физи­ческие и функциональные признаки. Работа механизма фокусиро­вания имитировалась программой (под управлением меню), кото­рая выделяла различные фрагменты в сетевом представлении реаль­ного мира, имитируя тем самым перемещение фокусных областей для поиска потенциальных референтов. Мы построили также про­грамму оценки частичного совпадения дескрипций и программу с целью поиска возможных кандидатов в референты. Наконец, нами запрограммирован ряд правил ослабления дескрипции и проверена принципиальная пригодность предложенного механизма.

4.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Система идентификации референта и модель ослабления дескрипции:

  1. Система идентификации референта и модель ослабления дескрипции
  2. ВЫВОДЫ
  3. Перспективы
  4. выводы