ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Анализатор CASPAR.

Как мы отмечали выше (при рассмотрении неграмматичности на уровне предложения), актуализация падежных фреймов представля­ется весьма плодотворным методом для решения задач надежного анализа.

Наши первые эксперименты по реализации преимуществ этого подхода были осуществлены с помощью анализатора CASPAR (Hayes and Carbonell, 1981). Правда, CASPAR имел дело с весьма ограниченной предметной областью, но простые глагольные группы-команды (то есть глаголы в повелительной форме, сопро­вождаемые последовательностью именных групп, иногда маркиро­ванных предлогами) он обрабатывал весьма надежно.

Ниже приведены примеры грамматически правильных входных выражений, приемлемых для анализатора CASPAR (взятых из общения интерфейса с базой данных, следящей за записью студен­тов университета на те или иные учебные курсы):

Cancel math 247 ‘Аннулировать матем 247’

Enrol Jim Campbell in English 324

‘Записать Джима Кемпбелла на английский 324’

Transfer student 5518 from Economics 101 to Business Administra­tion 111

‘Перевести студента 5518 с экономики 101 на коммерческую администрацию ИГ Подобные выражения являются классическим примером падежных конструкций; центральным понятием является глагол, или команда, а именные группы, или аргументы, отражают его падежные связи. С точки зрения поверхностных падежей аргументы команды либо маркированы предлогами, либо не маркированы и идентифицируются на основе позиции в высказывании (ср., например, позицию прямого дополнения в приведенных выше примерах).

Типы грамматических отклонений, которые способен обрабаты­вать CASPAR, включают:

— неожидаемые и нераспознаваемые (системой) вводные слова:

t S f Q f S[12] Enrol if you don’t mind student 2476 I think in Economics 247 ‘Запишите, если вы не возражаете, студента 2476, я думаю, на экономику 247’;

— пропущенные падежные показатели:

Enrol Jim Campbell Economics 247 ‘Запишите Джима Кемпбелла экономика 247’;

— нарушения порядка следования падежей:

In Economics 247 Jim Campbell enrol ‘На экономику 247 Джима Кемпбелла запишите’;

— неоднозначность падежей:

Transfer Jim Campbell Economics 247 English 332 ‘Переведите Джима Кемпбелла экономика 247 англий­ский 332’.

Могут обрабатываться также комбинации этих видов неграмматич­ности.

CASPAR опирается на стратегию анализа, максимально учитыва­ющую характерные особенности императивных падежных фреймов, а именно тот факт, что распознавать предлоги, маркирующие падежи, гораздо легче, чем распознавать заполнители соответствующих па­дежных ролей. Ниже клаузального уровня CASPAR использует линейный подбор образцов; этот метод служит для распознавания составляющих, определенных в семантических терминах той ограни­ченной предметной области, для которой система была разработана.

CASPAR использует следующий алгоритм:

1. Начиная с левой части входной цепочки, применить программу линейного подбора образцов в сканирующем режиме [13], используя все образцы, соответствующие глаголам в повелительном наклонении (командам). В случае успеха команда, соответствующая подобран­ному образцу, становится текущей командой, а остаток входной цепочки анализируется в соответствии с конкретным для данной предметной области падежным фреймом текущей команды. В случае неудачи (невозможности подобрать образец) CASPAR не может произвести анализ входной цепочки.

2. Если текущая команда предусматривает падеж немаркирован­ного прямого объекта, то применить программу линейного подбора образцов в якорном режиме к следующему [14] слову, используя мно­жество образцов, соответствующих тому типу объекта, который должен заполнить данную падежную роль. В случае удачи занести полученное таким способом значение в качестве заполнителя данного падежа.

3. Начиная со следующего слова, применять программу подбора образцов в сканирующем режиме, используя образцы, соответствую­щие поверхностным показателям всех маркированных падежей, кото­рые еще не были заполнены. В случае неудачи прервать обработку.

4. В случае успеха на последующем шаге CASPAR выбирает маркированный падеж — тот, с которым связан подобранный обра­зец. Применить программу подбора образцов в якорном режиме к следующему слову, используя множество образцов, соответствую­щих тому типу объекта, который должен заполнить выбранную падежную роль.

В случае успеха занести полученное значение в ка­честве заполнителя обрабатываемой падежной связи.

5. Перейти к шагу 3.

За исключением случаев, когда входное выражение совершенно не поддается анализу, этот алгоритм выдает некоторую команду и набор (возможно, неполный) аргументов. Он способен игнориро­вать случайные слова, если они непосредственно предшествуют падежному показателю. Однако он не в состоянии обрабатывать ни­какие другие виды неграмматичности, о которых говорилось выше. Для их обработки необходимо возвращаться назад, перешагивая любые части входного выражения, пропущенные программой подбо­ра образцов при обработке высказывания в сканирующем режиме. Если после прекращения работы данного алгоритма остались такого типа пропущенные подцепочки, а также незаполненные аргументы команды, то программа подбора образцов будет применяться в сканирующем режиме к каждой пропущенной подцепочке, используя образцы, соответствующие типам заполнителей для незаполненных аргументов. Благодаря этому будут обнаружены любые, стоящие не на том месте аргументы, а также аргументы, падежные показатели которых перепутаны или вовсе пропущены.

Данный алгоритм способен, например, обработать пример с за­путанным порядком составляющих —

То Economics 247 Jim Campbell transfer please from Mathematics 121

‘На экономику 247 Джима Кемпбелла переведите, пожалуйста, с математики 12Г —

следующим образом:

— В ходе первоначального поиска глагола-команды будет обна­ружен глагол transfer ‘переводить’ и благодаря этому весь дальней­ший анализ будет проходить в терминах падежного фрейма этой команды.

— Требуемый после глагола transfer прямой объект не будет найден на ожидаемом месте, поэтому CASPAR перейдет к поиску какого-нибудь падежного показателя.

— Будет найден падежный показатель from ‘из’, и затем CASPAR распознаёт падеж, маркированный предлогом from, и помещает его в слот „исходная точка движения" падежного фрейма глагола transfer.

— Затем анализатор достигает конца входной цепочки, но некото­рые падежи остались незаполненными, поэтому CASPAR переходит в режим сканирования, ищет падежные показатели в пропущенном начальном сегменте и находит падеж „конечная точка движения".

— Теперь остаются только сегменты Jim Campbell и please, а во фрейме остается незаполненным падеж „студент", поэтому CASPAR может правильно заполнить данный падеж, а слово please оставить как случайный лишний сегмент.

Несмотря на ограниченную предметную область, CASPAR до­казал на практике, насколько хорошо метод активизации падежных фреймов соответствует нашему списку желательных параметров надежного анализа.

— CASPAR использует падежные фреймы в весьма активном, интерпретирующем стиле. Он может, например, искать непосред­ственно после глагола заполнитель ожидаемого падежа прямого объекта, но, если его там не окажется, он готов распознавать тот же падеж в любом другом месте входной цепочки. Кроме того, когда анализатор сталкивается с нарушенным порядком следования сос­тавляющих, он „отступает" и бросает общий взгляд на текущее состояние анализа, рассматривая при этом непроанализированные входные сегменты как потенциальные заполнители еще не заполнен­ных падежей.

— Репрезентация, основанная на падежных фреймах, облегчает привлечение различной семантической информации, например такой, как ограничения на заполнение каждого падежа, соображения о фа­культативности или обязательности тех или иных падежей, а также знания о том, могут ли какие-то падежи иметь заполнители, связан­ные с прагматическими ограничениями.

— CASPAR демонстрирует также возможности метода активиза­ции падежных фреймов в плане использования различий между различными типами составляющих по их значимости и легкости их распознавания. Возможности использования таких различий де­монстрируются как диапазоном грамматических отклонений, которые способен обрабатывать CASPAR, так и эффективностью его работы при прямом анализе грамматически правильных входных сообще­ний. Причина такой эффективности кроется в ограниченном числе образцов, с которыми приходится иметь дело программе подбора образцов в каждый данный момент анализа. При первом применении программа имеет дело только с образцами для команд; при последую­щих применениях чередуются образцы для показателей незаполнен­ных падежей текущей команды и образцы для конкретного типа объектов.

Кроме того, если отвлечься от постобработки временно пропущенных анализатором входных сегментов, то можно утвер­ждать, что функционирование программы подбора образцов в менее эффективном, сканирующем режиме опирается только на образцы для падежных маркеров и команд. Составляющие, которые труднее распознать (например, дескрипции объектов), обрабатываются в бо­лее эффективном, якорном режиме.

CASPAR не удовлетворяет нашим требованиям только потому, что в нем преобладает обработка сообщения по принципу сверху вниз, но не снизу вверх. Единственный компонент, который ведет обработку снизу вверх,— это начальная фаза распознавания гла­гола. Если же глагол не обнаруживается, то анализатор терпит полную неудачу. Расширение возможностей анализатора CASPAR в плане преодоления этой трудности могло бы предусматривать начальный анализ заполнителей падежей по принципу снизу вверх и выдвижение гипотезы о существовании глагола, падежный фрейм которого наиболее точно совпадает с набором уже найденных падеж­ных значений (или — при отсутствии четкого выбора — обращение к пользователю с уточняющим вопросом). Очевидно, что это гораздо менее эффективный способ анализа, чем способ, представленный выше, но этот альтернативный вариант показывает, как могла бы интерпретироваться основная информация падежного фрейма при отсутствии в сообщении распознаваемого заголовочного слова.

5.2.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Анализатор CASPAR.: