ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Основания процедуры синтеза

Синтез осуществляется путем обработки элементов „потока со­ставляющих" („phrase stream") (McGuire, 1980), то есть списка единиц (компонентов предложения), подлежащих выражению.

Гене­ратор работает в циклическом режиме, обрабатывая эти элементы до тех пор, пока не будет исчерпан имеющийся фразовый поток. Элементы потока составляющих содержат команды для генератора и обеспечивают доступ к другим командам (хранящимся в виде дан­ных), которые в конечном итоге приводят к синтезу слов. Как эти элементы вырабатываются и используются, будет объяснено ниже, а сейчас важно уяснить, что они должны обеспечивать доступ к памяти. Существенной стороной генератора системы BORIS являет­ся способ организации лексической памяти. Эта организация осно­вывается на иерархии лексических прототипов, разработанной в сис­теме GEN МакГира; для применения в системе BORIS эта иерархия была несколько модифицирована и расширена.

6.1.1. Иерархия прототипов.

Иерархия прототипов — это система, служащая для классифи­кации информации, необходимой для синтеза, в соответствии с иерархией лексических „прототипов", с помощью которой генератор выбирает способ языкового выражения того или иного понятия. Иерархия имеет древесную структуру: элемент высшего уровня мо­жет иметь много подчиненных элементов.

В системе BORIS информация, необходимая для синтеза, при­писана в иерархии прототипов «шаблонам, инициирующим актуали­зацию конкретных знаний. Поскольку для выражения концептуаль­ной единицы генератор должен располагать лексической информа­цией, он должен для получения этой информации обращаться к иерархии прототипов. Шаблоны системы BORIS (для КОП, Целей, Переживаний и т. п.) нередко уже содержат часть информации,

необходимой для синтеза, однако обычно генератор должен осущест­влять поиск некоторой части информации и в вышележащих узлах дерева.

Иерархия прототипов предназначена для сведения информации о сходных формах выражения в одну единицу памяти.

Если неко­торое представление (типа Концептуальных Зависимостей) содержит характеристику, которая отвечает задаче синтеза, то база данных, используемая генератором, должна лишь накапливать такую инфор­мацию в одном и том же месте. Таким образом, более общая инфор­мация хранится в стволе иерархического дерева, а более специфи­ческая — в его ветвях.

Большинство понятий имеет лексические прототипы, и процесс просмотра различных уровней иерархии снизу вверх в конечном счете приводит к лексической сущности Ц—С (соответствующей „цели/состоянию" в системе GEN). Ц—С является „сиротой" в том смысле, что она не имеет узла-прототипа (родителя).

В этом множестве прототипов хранится информация о способах выражения понятий. Эта информация может быть весьма простой и сводиться к указанию конкретного слова или глагольной информа­ции, отсылающей к таблице форм конкретного глагола. Используют­ся и более сложные данные, например указания о порядке выраже­ния тех или иных понятий, о путях обхода дерева для проверки нужности выражения понятия и об альтернативных способах выра­жения понятия в случае неудачного поиска на том или ином пути.

Генератор обследует иерархию прототипов таким образом: для обнаружения какой-либо единицы информации, необходимой для синтеза, он проверяет, содержит ли эту информацию входная концеп­туальная структура. Если да, то никакого дальнейшего поиска не требуется. В противном случае ищется лексический прототип. Если нет лексического прототипа, то предполагается, что текущая единица подлежит выражению в ее исходном виде. Если есть лексический прототип, но он не содержит подходящей информации, то проверяет­ся следующий прототип (прототип прототипа), и т.д.

6.1.2 Процесс синтеза.

Основным динамическим компонентом генератора является „фра­зовый поток составляющих" (McGuire, 1980), который организует процесс выражения различных частей текущей концептуальной еди­ницы и следит за тем, когда именно должны выполняться те или иные действия. Эти действия представляют собой указатели к ЛИСП-коду, которые в конечном счете синтезируют «лексические единицы», или слова.

Функционирование генератора состоит из последовательных опе­раций развертывания выражений, расположенных слева в потоке составляющих. Это развертывание обычно требует обследования иерархии прототипов. Если некоторый элемент потока составляющих не может быть развернут, то он считается словом, удаляется из потока составляющих и помещается во временное запоминающее устройство. Данный цикл затем повторяется для нового состояния потока составляющих. Синтез заканчивается, когда выполнены все развертывания и поток составляющих пуст. Последняя задача гене­ратора — печать слов.

Структура потока составляющих обычно обусловливает такой режим синтеза, который сходен с обходом синтаксического дерева, направленным слева направо и в глубину. Однако синтаксические конструкции определяются исключительно на основе концептуаль­ного содержания, а выбор слов и синтаксических групп (phrases) контролируется также диалоговым контекстом.

Именно иерархия прототипов определяет реальный порядок рас­положения подлежащего, сказуемого, дополнения и других членов предложения. Сначала поток составляющих содержит только один элемент, помещенный туда в начале прогона генератора; этот эле­мент развертывается в правильную цепочку выражений в соответ­ствии со структурой концептуальной единицы, подлежащей выраже­нию на естественном языке. Исходный элемент потока составляю­щих служит сигналом для поиска в дереве прототипов того спо­соба выражения, который удовлетворителен с контекстуальной, кон­цептуальной и лексической точек зрения. Этот исходный элемент развертывается в серию элементов, организующих искомое выраже­ние. На каждой стадии развертывания могут учитываться контексту­альные и семантические факторы.

Иерархию прототипов можно рассматривать как различительную сеть для выражения разных концептуальных единиц. Весь процесс выражения контролируется системой лексических прототипов, а по­ток составляющих полностью подчинен этой базе данных. Начальный элемент потока составляющих служит указателем (pointer) к тому разделу ЛИСП-кода, который находит структуру составляющих для понятия, подлежащего выражению.

Это осуществляется путем отыс­кания наиболее конкретного лексического прототипа, содержащего информацию о структуре составляющих (то есть путем обследования дерева прототипов до обнаружения такого прототипа).

Многие концептуальные единицы требуют одной и той же струк­туры составляющих. Для таких понятий нужная информация хра­нится в общем лексическом прототипе. Для случаев, когда к работе генератора предъявляются особые требования, в нижних ярусах де­рева прототипов хранится соответствующий особый код.

На рис. 7 приводится пример использования потока^ состав­ляющих и иерархии прототипов для синтеза английского выраже­ния из концептуальной единицы PTRANS. На этом рисунке СОБ-ПЕ-

РЕДАЧА относится к событию, состоящему в передаче письма почтальоном адресату. Эта информация представляется посредством концептуальных зависимостей следующим образом:

(PTRANS АГЕНТ почтальон ОБЪЕКТ письмо ОТКУДА почтальон КУДА читатель)

СОБ-ПЕРЕДАЧА 0 — это узел в памяти BORIS, построенный для представления конкретного события, состоящего в получении письма от Поля в абзаце 1 рассказа о разводе. Когда генератор BORIS начинает строить выражение для СОБ-ПЕРЕДАЧА, он не находит в актуализированном узле никакой информации, необходи-

узел верхнего уровня:

прототипические узлы: Ц-С

ДЕЙСТВИЕ СОСТОЯНИЕ ПЕРЕЖИВАНИЕ. . .

■т

лексический узел PTRANS ... ГЛОТАНИЕ PTRANS:

•т

шаблон PTRANS СОБ-ПЕРЕДАЧА в К-ПИСЬМО в BORIS:

актуализация: СОБ-ПЕРЕДАЧА О

Рис. 7. Пример иерархической структуры и маршрут поиска информации для синтеза.

мой для синтеза, и поэтому осуществляет переход по связи, веду­щей к прототипу — шаблону СОБ-ПЕРЕДАЧА,— который в свою очередь является узлом в КОП „письмо". Узел с этим шаблоном содержит две единицы информации: (1) указание об использовании глагола to get и (2) указание о том, что подлежащее будущего предложения будет найдено в слоте КУДА соответствующего кон­цептуального представления. Далее, лексическим прототипом для СОБ-ПЕРЕДАЧА является акт PTRANS, который снабжен особой информацией о выражении дополнения. Наконец, к PTRANS идет прототипная связь, приводящая в конечном счете к узлу Ц—С; информация этого последнего подавляется информацией в подчи­ненных узлах. Ц—С также организует структуру предложения неко­торым стандартным образом. На основе информации о ролевом заполнении ролей, содержащейся в актуализированном узле, исход­ная концептуальная единица в результате выражается так:

RICHARD GOT A LETTER FROM PAUL.

‘Ричард получил письмо от Поля’.

6.2.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Основания процедуры синтеза: