ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Основания процедуры синтеза

Синтез осуществляется путем обработки элементов „потока со­ставляющих" („phrase stream") (McGuire, 1980), то есть списка единиц (компонентов предложения), подлежащих выражению.

Гене­ратор работает в циклическом режиме, обрабатывая эти элементы до тех пор, пока не будет исчерпан имеющийся фразовый поток. Элементы потока составляющих содержат команды для генератора и обеспечивают доступ к другим командам (хранящимся в виде дан­ных), которые в конечном итоге приводят к синтезу слов. Как эти элементы вырабатываются и используются, будет объяснено ниже, а сейчас важно уяснить, что они должны обеспечивать доступ к памяти. Существенной стороной генератора системы BORIS являет­ся способ организации лексической памяти. Эта организация осно­вывается на иерархии лексических прототипов, разработанной в сис­теме GEN МакГира; для применения в системе BORIS эта иерархия была несколько модифицирована и расширена.

6.1.1. Иерархия прототипов.

Иерархия прототипов — это система, служащая для классифи­кации информации, необходимой для синтеза, в соответствии с иерархией лексических „прототипов", с помощью которой генератор выбирает способ языкового выражения того или иного понятия. Иерархия имеет древесную структуру: элемент высшего уровня мо­жет иметь много подчиненных элементов.

В системе BORIS информация, необходимая для синтеза, при­писана в иерархии прототипов «шаблонам, инициирующим актуали­зацию конкретных знаний. Поскольку для выражения концептуаль­ной единицы генератор должен располагать лексической информа­цией, он должен для получения этой информации обращаться к иерархии прототипов. Шаблоны системы BORIS (для КОП, Целей, Переживаний и т. п.) нередко уже содержат часть информации,

необходимой для синтеза, однако обычно генератор должен осущест­влять поиск некоторой части информации и в вышележащих узлах дерева.

Иерархия прототипов предназначена для сведения информации о сходных формах выражения в одну единицу памяти.

Если неко­торое представление (типа Концептуальных Зависимостей) содержит характеристику, которая отвечает задаче синтеза, то база данных, используемая генератором, должна лишь накапливать такую инфор­мацию в одном и том же месте. Таким образом, более общая инфор­мация хранится в стволе иерархического дерева, а более специфи­ческая — в его ветвях.

Большинство понятий имеет лексические прототипы, и процесс просмотра различных уровней иерархии снизу вверх в конечном счете приводит к лексической сущности Ц—С (соответствующей „цели/состоянию" в системе GEN). Ц—С является „сиротой" в том смысле, что она не имеет узла-прототипа (родителя).

В этом множестве прототипов хранится информация о способах выражения понятий. Эта информация может быть весьма простой и сводиться к указанию конкретного слова или глагольной информа­ции, отсылающей к таблице форм конкретного глагола. Используют­ся и более сложные данные, например указания о порядке выраже­ния тех или иных понятий, о путях обхода дерева для проверки нужности выражения понятия и об альтернативных способах выра­жения понятия в случае неудачного поиска на том или ином пути.

Генератор обследует иерархию прототипов таким образом: для обнаружения какой-либо единицы информации, необходимой для синтеза, он проверяет, содержит ли эту информацию входная концеп­туальная структура. Если да, то никакого дальнейшего поиска не требуется. В противном случае ищется лексический прототип. Если нет лексического прототипа, то предполагается, что текущая единица подлежит выражению в ее исходном виде. Если есть лексический прототип, но он не содержит подходящей информации, то проверяет­ся следующий прототип (прототип прототипа), и т.д.

6.1.2 Процесс синтеза.

Основным динамическим компонентом генератора является „фра­зовый поток составляющих" (McGuire, 1980), который организует процесс выражения различных частей текущей концептуальной еди­ницы и следит за тем, когда именно должны выполняться те или иные действия. Эти действия представляют собой указатели к ЛИСП-коду, которые в конечном счете синтезируют «лексические единицы», или слова.

Функционирование генератора состоит из последовательных опе­раций развертывания выражений, расположенных слева в потоке составляющих. Это развертывание обычно требует обследования иерархии прототипов. Если некоторый элемент потока составляющих не может быть развернут, то он считается словом, удаляется из потока составляющих и помещается во временное запоминающее устройство. Данный цикл затем повторяется для нового состояния потока составляющих. Синтез заканчивается, когда выполнены все развертывания и поток составляющих пуст. Последняя задача гене­ратора — печать слов.

Структура потока составляющих обычно обусловливает такой режим синтеза, который сходен с обходом синтаксического дерева, направленным слева направо и в глубину. Однако синтаксические конструкции определяются исключительно на основе концептуаль­ного содержания, а выбор слов и синтаксических групп (phrases) контролируется также диалоговым контекстом.

Именно иерархия прототипов определяет реальный порядок рас­положения подлежащего, сказуемого, дополнения и других членов предложения. Сначала поток составляющих содержит только один элемент, помещенный туда в начале прогона генератора; этот эле­мент развертывается в правильную цепочку выражений в соответ­ствии со структурой концептуальной единицы, подлежащей выраже­нию на естественном языке. Исходный элемент потока составляю­щих служит сигналом для поиска в дереве прототипов того спо­соба выражения, который удовлетворителен с контекстуальной, кон­цептуальной и лексической точек зрения. Этот исходный элемент развертывается в серию элементов, организующих искомое выраже­ние. На каждой стадии развертывания могут учитываться контексту­альные и семантические факторы.

Иерархию прототипов можно рассматривать как различительную сеть для выражения разных концептуальных единиц. Весь процесс выражения контролируется системой лексических прототипов, а по­ток составляющих полностью подчинен этой базе данных. Начальный элемент потока составляющих служит указателем (pointer) к тому разделу ЛИСП-кода, который находит структуру составляющих для понятия, подлежащего выражению.

Это осуществляется путем отыс­кания наиболее конкретного лексического прототипа, содержащего информацию о структуре составляющих (то есть путем обследования дерева прототипов до обнаружения такого прототипа).

Многие концептуальные единицы требуют одной и той же струк­туры составляющих. Для таких понятий нужная информация хра­нится в общем лексическом прототипе. Для случаев, когда к работе генератора предъявляются особые требования, в нижних ярусах де­рева прототипов хранится соответствующий особый код.

На рис. 7 приводится пример использования потока^ состав­ляющих и иерархии прототипов для синтеза английского выраже­ния из концептуальной единицы PTRANS. На этом рисунке СОБ-ПЕ-

РЕДАЧА относится к событию, состоящему в передаче письма почтальоном адресату. Эта информация представляется посредством концептуальных зависимостей следующим образом:

(PTRANS АГЕНТ почтальон ОБЪЕКТ письмо ОТКУДА почтальон КУДА читатель)

СОБ-ПЕРЕДАЧА 0 — это узел в памяти BORIS, построенный для представления конкретного события, состоящего в получении письма от Поля в абзаце 1 рассказа о разводе. Когда генератор BORIS начинает строить выражение для СОБ-ПЕРЕДАЧА, он не находит в актуализированном узле никакой информации, необходи-

узел верхнего уровня:

прототипические узлы: Ц-С

ДЕЙСТВИЕ СОСТОЯНИЕ ПЕРЕЖИВАНИЕ. . .

■т

лексический узел PTRANS ... ГЛОТАНИЕ PTRANS:

•т

шаблон PTRANS СОБ-ПЕРЕДАЧА в К-ПИСЬМО в BORIS:

актуализация: СОБ-ПЕРЕДАЧА О

Рис. 7. Пример иерархической структуры и маршрут поиска информации для синтеза.

мой для синтеза, и поэтому осуществляет переход по связи, веду­щей к прототипу — шаблону СОБ-ПЕРЕДАЧА,— который в свою очередь является узлом в КОП „письмо". Узел с этим шаблоном содержит две единицы информации: (1) указание об использовании глагола to get и (2) указание о том, что подлежащее будущего предложения будет найдено в слоте КУДА соответствующего кон­цептуального представления. Далее, лексическим прототипом для СОБ-ПЕРЕДАЧА является акт PTRANS, который снабжен особой информацией о выражении дополнения. Наконец, к PTRANS идет прототипная связь, приводящая в конечном счете к узлу Ц—С; информация этого последнего подавляется информацией в подчи­ненных узлах. Ц—С также организует структуру предложения неко­торым стандартным образом. На основе информации о ролевом заполнении ролей, содержащейся в актуализированном узле, исход­ная концептуальная единица в результате выражается так:

RICHARD GOT A LETTER FROM PAUL.

‘Ричард получил письмо от Поля’.

6.2.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Основания процедуры синтеза:

  1. Методологические основания синтеза геологических знаний Methodological basises of the synthesis of geological knowledge
  2. Процедуры эффективного выполнения Минимальных стандартных правил обращения с заключенными Процедура 1
  3. 34. Бернер*(155), признавая время "основанием оснований давности" допускает еще целый ряд "особых оснований".
  4. В. Клопотання про винесення рішенняза спрощеною судовою процедурою і остаточнадосудова нарада1. Винесення рішення за спрощеною судовою процедурою
  5. Синтез гормонов
  6. Текущие исследования процесса синтеза
  7. §2. Синтез и анализ.
  8. Анализ и синтез.
  9. § 1 20. Позициональность и нейтральность в сфере синтезов
  10.   § 22. Закон диалектического синтеза  
  11. § 1 22. Модусы совершения артикулируемых синтезов. «Тема
  12.   Органический синтез
  13. 3.2.3 Процедуры банкротства
  14. 483. Может ли размер процентов за пользование чужими денежными средствами, взыскиваемых на основании ст.395 ГК, быть снижен судом по основаниям, установленным ст.333 ГК для уменьшения неустойки?
  15. 34. Основание действительности нормативного порядка: основная норма а) Смысл вопроса об основании действительности
  16. а)              развитие как синтез