ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Система идентификации референта и модель ослабления дескрипции

В этом разделе дается описание компонента ослабления дес­крипции в контексте системы идентификации референта. Рассматри­вается, каким образом компонент ослабления использует разные виды знаний о дескрипциях и о реальном мире в процессе ослабле­ния неудачной дескрипции и замены ее на такую, референт которой может быть найден.

3.1.1 Обнаружение референта с помощью стандартного механизма референции

Идентификация референта означает обнаружение в реальном мире такого объекта, который соответствует дескрипции, данной говорящим (при этом объект должен обладать всеми признаками, содержащимися в дескрипции, но дескрипция не обязательно должна содержать все признаки объекта). Такой процесс традиционно мо­делировался в прежних работах. Наш механизм референции прежде всего определяет, необходимо ли начинать поиск в базе знаний, отражающей внешний мир и обычно имеющей таксономическую организацию. Например, в системе, связанной со сборкой водяного насоса, компонент референции не будет осуществлять поиск референ­та (если на это не будет специальной команды) в том случае, когда в систему поступила группа существительного с неопределенным артиклем (что обычно указывает на новый или предполагаемый объект) или в том случае, когда дескрипция сформулирована очень туманно (а значит, неоднозначно). В ходе принятия такого рода решений могут быть использованы некоторые прагматические аспек­ты дискурса. Например, использование дейктического элемента в определенных группах существительного, как этот X или тот послед­ний X указывает на то, что объект либо упоминался ранее, либо уже был найден как референт какой-то другой дескрипции, а значит, его легче найти. В эти вопросы мы углубляться не будем.

База знаний содержит лингвистические описания и описание самого обозреваемого поля зрения слушающего. Для представления знаний используется язык KL-One (см. Brachman, 1977), удоб­ный для описания таксономической информации.

KL-One состоит из понятий (CONCEPTS), их ролей (ROLEs) и связей между ними. CONCEPT представляет в системе множество элементов, которые может описывать это понятие. Связь SuperC („= = >“) между ними указывает на отношение включения одного множества в другое. Рассмотрим пример, представленный на рис. 4. Связь SuperC, нап­равленная от понятия В к понятию А, означает включение мно­жества В во множество А (В^А). „Индивидуальное понятие" (INDIVIDUAL CONCEPT) означает, что это множество представле­но единичным элементом. Индивидуальное понятие D на рис. 4. ха­рактеризуется как уникальный элемент множества, задаваемого понятием С. Роли обозначают то же, что в других языках обозначено атрибутами или слотами, а именно: функциональные отношения между данным понятием и другими понятиями, причем эти отно­шения задают ограничения на заполнение конкретного слота его значениями.

После того как принято решение начать поиск в базе знаний, включается программа поиска референта. Она использует для этого классификатор системы KL-One (Lipkis, 1982). Условия поиска определяются механизмом фокусирования, основанным на методе Б. Грош (Grosz, 1977). Классификатор должен обнаружить все от­ношения подчинения между новой, только что полученной дескрипци­ей и всеми другими понятиями, входящими в состав заданной таксономии.

Рис. 4. Пример отражения таксономии в языке представле­ния знаний KL-One.

Иначе говоря, в результате такого поиска входная дескрипция подчиняет себе дескрипции всех возможных референтов. Если при этом входной дескрипции будет соответствовать более одного рефе­рента, то она считается неоднозначной. Если входная дескрипция подчиняет себе только одно понятие из базы знаний, то оно и будет считаться искомым референтом. И, наконец, если в классификации объектов не найдется ни одного подходящего понятия, то програм­ма включает в работу механизм ослабления. До того, как предпри­нять ослабление дескрипции, наша система FWIM проверяет, явля­ется ли данный сбой результатом прагматической ошибки неудачно­го формулирования самой дескрипции.

Далее в статье мы рассмот­рим только тот случай, когда система не может найти референта.

3.1.2 Подсчет «голосов» за и против ослабления описания

Если программе не удается найти референта, то приходится определять, почему это произошло: из-за дескрипции (т. е. собст­венно неудачи референции) или в силу внешних обстоятельств. Пу­таница, вызванная внешними обстоятельствами, могла произойти, например, при различиях в восприятии разговора говорящим и слу­шающим, из-за неправильного употребления определения, из-за оши­бочно выполненного действия и пр. Правила прагматики определяют, следует ли в каждом конкретном случае производить ослабление дескрипции. Так, например, система проверяет, не была ли вызвана неудача в поиске референта явлениями фокуса, метонимии и си­некдохи13. Эти правила не рассматриваются в данной статье, в связи с чем мы перейдем к тому случаю, когда трудности вызваны неудач­ной дескрипцией.

3.1.3 Ослабление дескрипции

В том случае, когда необходимо ослабить дескрипцию, система должна выполнить следующие действия:

— найти потенциальных кандидатов в референты;

— определить, какие признаки во входной дескрипции следует ослабить и в каком порядке это делать; затем, в соответствии с избранным порядком ослабления признаков упорядочить и предпола­гаемые референты;

— выбрать подходящий способ ослабления и применить его к входной дескрипции.

Поиск потенциальных референтов

Прежде чем производить ослабление дескрипции, алгоритм выбирает потенциальных кандидатов в референты из числа элемен­тов, находящихся в поле зрения говорящего. Делается это так: ал­горитм „пробегает" по той части структурированной базы знаний, которая выделилась с помощью механизма фокусирования и ока­залась наиболее близкой к дескрипции, данной говорящим. При этом просмотре базы знаний происходит движение вверх и вниз по связям SUPERC, обозначающим иерархию понятий, и проверка каждого кандидата. Механизм выявления частичного совпадения, представленный в системе KL-One, определяет степень близости дескрипции кандидата к входной дескрипции и приписывает ей числовое значение (перед этим вычисляются показатели близости на уровне признаков, что помогает расположить признаки в опре­деленной последовательности и определить степень их совпадения с признаками входной дескрипции).

Информация о соотношении кандидатов основывается только на знаниях, отраженных в языке KL-One; при этом учитываются отношения включения между зна­чениями признаков или их равенство. Никакая информация о пред­метной области не принимается во внимание. Наиболее подходящие дескрипции из базы знаний (найденные в процессе упорядочения с применением некоторого критерия отсечения) считаются потен­циальными кандидатами в референты. Последующее упорядочение признаков и кандидатов в референты для целей ослабления дескрип­ции производится уже с учетом предметной области.

Упорядочение признаков и потенциальных референтов для применения механизма

ослабления

На этом этапе система референции исследует входную дескрип­цию и кандидатов в референты, определяет, какие признаки осла­блять и в каком порядке, и устанавливает общую последователь­ность ослабления признаков 14. Эта последовательность очень важна, поскольку если производить ослабление одновременно по разным критериям, но без единого порядка, то можно в результате полу­чить несколько разных референтов.

Последовательность признаков используется системой для того, чтобы определить, в каком порядке к отобранным на предыдущем этапе кандидатам будут применяться правила ослабления.

Процесс преодоления неудачи референции опирается на знания о языке, о прагматике, о дискурсе, о предметной области, о пер­цептивных признаках, об иерархической структуре понятий, о преды­дущих пробах и ошибках. Подробнее об этом рассказывалось в раз­деле 3. Эти виды знаний помогают установить порядок признаков для применения механизма ослабления. Информация каждого типа записана в программе в виде некоторого множества правил ослабле­ния. Большинство правил подсказаны подмеченными в протоколах трудностями в диалоге. Написаны они на языке, близком к Проло­гу. На рис. 5. дано одно из правил, использующих знания о языке.

Рис. 5. Пример правила ослабления дескрипции на основе знаний о языке.

Содержания правил, использующих знания о языке: ослаблять признаки во входной дескрипции в следующем порядке: 1) прилагательные, 2) предложные сочетания, 3) относительные придаточные предложения и именную часть составного сказуемого.

Пример правила:

Ослабить-Признак-Перед (v 1, v2)

-«-Дескрипция Объекта (d)

Дескриптор Признака (v 1)

Дескриптор Признака (v 2)

Признак В Дескрипции (i/l, d)

Признак В Дескрипции (v 2, d),

Равно (синтаксич-форма (v 1, d) „ПРИЛАГ")

Равно (синтаксич-форма (v2, d) „ОТНОСИТ-ПРИДАТ")

Это правило появилось вследствие того, что, как было заме­чено, говорящий почти всегда располагает особо важную часть информации в конце дескрипции (там, где она отделена от основной части и поэтому выделяется в произношении). Правило на рис. 5 просто отражает тот факт, что относительное придаточное предло­жение располагается в конце группы существительного, а прилага­тельные — всегда стоят до него, поэтому те признаки, которые выра­жены прилагательными, должны быть ослаблены в первую очередь, а признаки, представленные придаточными предложениями,— во вторую. Но в более общей и более удобной форме это правило звучит следующим образом: информация, помещенная в конце дескрипции, обычно более значима (иначе говоря, она больше в фокусе говоря­щего) .

Рис. 6. Два правила ослабления дескрипции на основе знаний о дискурсе.

Правила ослабления дескрипции, связанные с перемещением фокуса внимания:

Пометить-Возможное-Смешение (и)

Высказывание (и). Фальстарт (и)

Пометить-Возможное-Смешение (d)

Объект-Дескр. (d), Самокоррекция (d),

где

Фальстарт (и): Этот предикат устанавливает, имел ли место в некотором высказывании „ы“ фальстарт. Наличие фальстартов должно улавливаться анализатором.

Самокоррекция (d): Этот предикат ищет в дескрипции ,,d“ самокоррекцию. Как и в случае фальстарта, задача ее обнаружения во входном сообщении возлагается на анализатор.

На рис 6. приводятся два правила ослабления дескрипции на основе знаний о дискурсе. Правила отмечают возможную неожидан­ную смену фокуса. Они имитируют деятельность слушающего по обнаружению возможного смешения фокусов внимания со стороны говорящего в ходе идентификации референта в том случае, если го­ворящий сам прерывает свое высказывание 15.

Прерывание может быть двух типов — „фальстарт" и „самокоррекция". При фальстар­те говорящий начинает описывать объект, затем вдруг резко оста­навливается, давая эмоциональную оценку своей речи, и начинает описание заново (см. также работу Р о 1 а п у і, 1978, о „фальстар­тах") . Такие восклицания, как, например,,,Фу-ты!", „Нет-нет, не то!", „А, не так" и тому подобные сигналы фальстарта, дают понять слу­шающему, что возникло какое-то затруднение, хотя и не указывают, где именно. Источник затруднения может корениться в текущем высказывании или в каком-то из предыдущих. Говорящий очень часто (ошибочно) думает, что слушающему ясно, что он имеет в виду.

Слушающий, в свою очередь, обычно считает, что затруднение выз­вано текущим высказыванием. Тем не менее, слушающему следует запомнить, в каком месте диалога произошел фальстарт, чтобы вернуться к нему и осмыслить услышанное по-новому, если потре­буется. Самокоррекция не так резко перебивает дискурс, как фаль­старт, и яснее указывает на источник неудачи. Она представляет собой изменение части высказывания, которое вносится сразу же, по ходу произнесения самого высказывания. Весьма типичны, ска­жем, такие описания с самокоррекцией: она — трубка то есть или большая синяя — э — фиолетовая трубка. Так же, как и фаль­старты, эти места в описании чреваты ошибками, поэтому слушаю­щий должен уметь их выделять.

Каждый вид знаний диктует свою частичную упорядоченность признаков при их ослаблении . В каждом частично упорядоченном множестве элементы сортируются топологически, что позволяет срав­нивать такие множества между собой в едином формате. Затем все частично упорядоченные множества рассматриваются вместе. Пред­положим, например, что из перцептивных знаний следует, что мы должны ослабить признак цвета. Однако если цветовой признак содержится в относительном придаточном предложении, то знания о языке снизят ранг цветового признака, то есть поставят его ближе к концу в списке характеристик, предназначенных для ослабления.

Поскольку разные виды знаний дают, как правило, разное частич­ное упорядочение признаков, то эти различия могут привести к кон­фликту. Для разрешения этого и подобных конфликтов предназна­чен алгоритм выбора наилучшего кандидата. Его целью является такое упорядочение кандидатов в референты Сі, С2, ... , Сп, чтобы ослабление прежде всего применялось к наилучшему кандидату, затем к наилучшему из оставшихся и т. д. Наилучшим являются те кандидаты, которые лучше всего соответствуют предложенным упорядочениям признаков. Сначала алгоритмом исследуются все кандидаты в референты и упорядоченные множества признаков по каждому виду знаний. Для каждого кандидата С / (на основе упоря­дочения признаков по одному из видов знаний) алгоритм вычисляет степень изменения первоначальной дескрипции D в том случае, если она будет ослаблена до такого варианта, который будет явно иметь своим референтом С/. Механизм вычисления (этой степени изменения дескрипции) ориентирован на минимизацию количества ослабляемых признаков при попытке ослаблять призна­ки в строго заданном порядке и в то же время на ослабле­ние прежде всего тех признаков, которые ближе к началу в списке характеристик, рекомендуемых для ослабления 17.

Такой эвристический метод позволяет очень просто отражать в получаемом числовом показателе, насколько конкретный кандидат соответствует данному упорядочению признаков. Отметим, что такой способ вычисления может выбрать кандидата Сі, при том, что для него требуется ослабить больше признаков в D, чем для кандидата Сг, но зато его признаки следуют в списке характеристик, рекомендуе-

Дескрипция, / ’’Закругленная бордовая деталь,

данная говорящим \ большая такая”

Цвет: Бордовый Форма: Круглая Функция: Деталь Размер: Большой

D

Входное представление дескрипции

Цвет: Красный Форма: Цилиндр Состав: Пластик

Цвет: Оранжевый Форма: Круглая Функция: Труба

Цвет: Красный Форма: Брусок Функция: Подставка

С„

С2

Cl

Объекты-кандидаты

(Языковые знания)

Цвет < Форма < Функция < Размер (Перцептивные знания)

Цвет или Форма < Функция < Размер

Частичное упорядочение признаков для их ослабления с использованием правил, основанных на различных источниках знаний

Цвет < Форма или Функция или Размер [ерархические знания)

Переупорядочение

объектов-кандидатов

Цвет: Красный Форма: Цилиндр Состав: Пластик

Цвет: Оранжевый Форма: Круглая Функция: Труба

Цвет: Красный Форма: Брусок Функция: Подставка

С2 С, Сп

Рис.. 7. Переупорядочение кандидатов в референты.

мых для ослабления, раньше, чем признаки С2. Алгоритм проводит вычисление показателя для С/ по каждому виду знаний и суммирует их, получая общий показатель. Затем все С/ упорядочиваются в соответствии с полученными общими показателями (начиная с наи­меньших значений).

На рис. 7 показана работа алгоритма выбора наилучшего кан­дидата. В верхней части рисунка помещена дескрипция, данная го­ворящим. Далее представлено множество указанных в ней призна­ков и приписанных им значений (то есть пары типа „Цвет: бордо­вый") . В качестве потенциальных кандидатов в референты выступают объекты реального мира, выделенные механизмом выбора объектов на основе частичного совпадения. Они обозначены в следующем ряду (Сі, С2, ... , СЛ). В прямоугольниках даны множества признаков и их значений, описывающих объект.

Далее алгоритмом генерируются частично упорядоченные мно­жества признаков, предлагающие порядок их ослабления в исход­ной дескрипции, по одному множеству для каждого вида знаний (перцептивных, лингвистических, иерархических). Знания о языке, например, предлагают такой порядок ослабления: сначала цвет или форма, затем функции, затем размер. Наконец, кандидаты в ре­ференты переупорядочиваются в соответствии с информацией, выра­женной в исходной дескрипции и с частично упорядоченными мно­жествами признаков.

Выбор методов ослабления дескрипции

После того как было сформировано упорядоченное множество кандидатов в референты, механизм ослабления переходит к третье­му шагу: он пробует найти подходящие методы ослабления приз­наков, для которых только что было получено несколько вариантов упорядочения (успешное обнаружение таких методов оправдывает ослабление исходной дескрипции до требований какого-то конкрет­ного кандидата в референты). Алгоритм ищет методы ослабления до тех пор, пока один из кандидатов в списке потенциальных референтов не совпадет с ослабленным описанием. На этом этапе снова исполь­зуются знания разных видов.

Ослаблению могут быть подвергнуты многие аспекты дескрип­ции, предложенной говорящим, среди них — сложные отношения, указанные в дескрипции индивидуальные особенности референта, направленность фокуса внимания, который очерчивает область по­иска референта в реальном мире. Под сложными отношениями мы имеем в виду пространственные отношения (например, отвер­стие возле верхнего края трубки), сравнения (трубка побольше), отношения превосходства (самая большая трубка). Все они могут подвергаться ослаблению так же, как и более простые признаки объекта (размер, цвет), упомянутые в дескрипции.

Существуют три стратегии ослабления дескрипции, каждая из них применима к любой части дескрипции. Эти стратегии таковы:

(1) Отбросить ошибочное значение признака.

(2) Расширить или сузить значение признака, выбирая новое значение как можно ближе к старому (то есть осуществляется просмотр иерархии подчиненности признаков).

(3) Попытаться применить значение какого-то другого приз­нака, исходя из каких-то внешних соображений (например, зна­ния о том, что люди часто оговариваются, путая слова, связанные отношением противоположности, типа отверстие и штырь, как это было в отрывке 7).

Выбирая стратегию ослабления, сначала пробуют применить наи­менее крутые меры. Стратегия (1) является самой радикальной,

(2) — наименее радикальной, а (3) занимает промежуточное поло­жение.

Очень часто объекты, находящиеся в фокусе, неявно вносят в него другие, связанные с ними объекты (Grosz, 1977; Webber, 1978). Поэтому части объекта, находящиеся в фокусе, вполне могут быть кандидатами в референты, и их стоит проверить. Иногда гово­рящий может отнести признак отдельной части ко всему объекту (так, например, плунжер, который состоит из красной ручки, метал­лического стержня, синей головки и зеленой манжеты, может быть назван зеленым плунжером). В этих случаях механизм ослабления строит новую дескрипцию, опираясь на отношение „часть — целое".

Три вышеприведенных стратегии ослабления реализованы в про­грамме набором иерархически организованных процедур, которые мы называем методами ослабления. Каждая процедура рассчитана на ослабление определенного типа признаков и сама выбирает необходимые виды знаний для своей работы. Так, например, про­цедура генерации сходных значений признаков разделяется на не­сколько процедур: генерации сходных значений формы, генерации сходных значений цвета и генерации сходных значений размера.

Каждая такая специализированная процедура делает, по суще­ству, одно и то же: сначала пытается ослабить значение признака до такого, которое было бы наиболее близко к исходному или как-то связано с ним (например, при ослаблении признака цвета красный мы предпочтем сначала попробовать свести его к розовому, а уже затем — к синему). Если это не удается, то ослабляемый признак заменяется на другие, более далекие 18. Такая замена, по существу, ничем не лучше простого отбрасывания признака. (...) [28]

Цель компьютерной реализации разработанного нами механиз­ма референции и преодоления коммуникативных неудач состояла в том, чтобы продемонстрировать имитацию работы такого модуля в составе системы общения с ЭВМ на естественном языке. Мы, правда, не использовали какой-либо конкретный семантико-синтак- сический анализатор, а просто считали, что на вход нашего компо­нента подается такое представление реплик, которое мог бы давать упомянутый анализатор. А именно, в качестве входного материала у нас служило представление на языке KL-One той семантической интерпретации, которая строилась для некоторой дескрипции какого- то объекта из предметной области, связанной со сборкой водяного насоса.

Мы построили также на языке KL-One сеть из 250 понятий, в которой отражены многие детали водяного насоса и их физи­ческие и функциональные признаки. Работа механизма фокусиро­вания имитировалась программой (под управлением меню), кото­рая выделяла различные фрагменты в сетевом представлении реаль­ного мира, имитируя тем самым перемещение фокусных областей для поиска потенциальных референтов. Мы построили также про­грамму оценки частичного совпадения дескрипций и программу с целью поиска возможных кандидатов в референты. Наконец, нами запрограммирован ряд правил ослабления дескрипции и проверена принципиальная пригодность предложенного механизма.

4.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Система идентификации референта и модель ослабления дескрипции:

  1. Исследование алгоритмов идентификации с применением FSpice- моделей R-C-NR ЯЭФП
  2. 4.2. Статистическая обработка экспериментальных данных, идентификация моделей
  3. Идентификация действующей системы управленческого учета
  4. 11.4.1 Идентифицирующие дескрипции
  5. Когнитивная трехкластерная система идентификации параметров порядка The three cluster cognitive system of order parameter_identification
  6. Программа идентификации R-C-NR ЯЭФП и исследование алгоритмов идентификации на основе опытных образцов ЯЭФП
  7. «Дескрипция»
  8. Блок-схема математической модели двухтопливной комбинированной системы питания двигателя автомобиля для расчета расхода топлив представлена на рисунке 2.3. Она была разработана на основе моделей /50, 66, 86,90/.
  9. Блок-схсма математической модели двухтопливной комбинированной системы питания двигателя автомобиля для расчета расхода топлив представлена на рисунке 2.3. Она была разработана на основе моделей /50, 66, 86,90/.
  10. Характер и система XII таблиц: две наиболее близкие модели этой системы
  11. Знания, необходимые для исправления дескрипций
  12. Модель системы
  13. 2.2.6 Примитивные значения и теория дескрипций
  14. Ослабление синтаксической связи
  15. Ослабление синтаксической связи