Анализатор CASPAR.
Как мы отмечали выше (при рассмотрении неграмматичности на уровне предложения), актуализация падежных фреймов представляется весьма плодотворным методом для решения задач надежного анализа.
Наши первые эксперименты по реализации преимуществ этого подхода были осуществлены с помощью анализатора CASPAR (Hayes and Carbonell, 1981). Правда, CASPAR имел дело с весьма ограниченной предметной областью, но простые глагольные группы-команды (то есть глаголы в повелительной форме, сопровождаемые последовательностью именных групп, иногда маркированных предлогами) он обрабатывал весьма надежно.Ниже приведены примеры грамматически правильных входных выражений, приемлемых для анализатора CASPAR (взятых из общения интерфейса с базой данных, следящей за записью студентов университета на те или иные учебные курсы):
Cancel math 247 ‘Аннулировать матем 247’
Enrol Jim Campbell in English 324
‘Записать Джима Кемпбелла на английский 324’
Transfer student 5518 from Economics 101 to Business Administration 111
‘Перевести студента 5518 с экономики 101 на коммерческую администрацию ИГ Подобные выражения являются классическим примером падежных конструкций; центральным понятием является глагол, или команда, а именные группы, или аргументы, отражают его падежные связи. С точки зрения поверхностных падежей аргументы команды либо маркированы предлогами, либо не маркированы и идентифицируются на основе позиции в высказывании (ср., например, позицию прямого дополнения в приведенных выше примерах).
Типы грамматических отклонений, которые способен обрабатывать CASPAR, включают:
— неожидаемые и нераспознаваемые (системой) вводные слова:
t S f Q f S[12] Enrol if you don’t mind student 2476 I think in Economics 247 ‘Запишите, если вы не возражаете, студента 2476, я думаю, на экономику 247’;
— пропущенные падежные показатели:
Enrol Jim Campbell Economics 247 ‘Запишите Джима Кемпбелла экономика 247’;
— нарушения порядка следования падежей:
In Economics 247 Jim Campbell enrol ‘На экономику 247 Джима Кемпбелла запишите’;
— неоднозначность падежей:
Transfer Jim Campbell Economics 247 English 332 ‘Переведите Джима Кемпбелла экономика 247 английский 332’.
Могут обрабатываться также комбинации этих видов неграмматичности.
CASPAR опирается на стратегию анализа, максимально учитывающую характерные особенности императивных падежных фреймов, а именно тот факт, что распознавать предлоги, маркирующие падежи, гораздо легче, чем распознавать заполнители соответствующих падежных ролей. Ниже клаузального уровня CASPAR использует линейный подбор образцов; этот метод служит для распознавания составляющих, определенных в семантических терминах той ограниченной предметной области, для которой система была разработана.
CASPAR использует следующий алгоритм:
1. Начиная с левой части входной цепочки, применить программу линейного подбора образцов в сканирующем режиме [13], используя все образцы, соответствующие глаголам в повелительном наклонении (командам). В случае успеха команда, соответствующая подобранному образцу, становится текущей командой, а остаток входной цепочки анализируется в соответствии с конкретным для данной предметной области падежным фреймом текущей команды. В случае неудачи (невозможности подобрать образец) CASPAR не может произвести анализ входной цепочки.
2. Если текущая команда предусматривает падеж немаркированного прямого объекта, то применить программу линейного подбора образцов в якорном режиме к следующему [14] слову, используя множество образцов, соответствующих тому типу объекта, который должен заполнить данную падежную роль. В случае удачи занести полученное таким способом значение в качестве заполнителя данного падежа.
3. Начиная со следующего слова, применять программу подбора образцов в сканирующем режиме, используя образцы, соответствующие поверхностным показателям всех маркированных падежей, которые еще не были заполнены. В случае неудачи прервать обработку.
4. В случае успеха на последующем шаге CASPAR выбирает маркированный падеж — тот, с которым связан подобранный образец. Применить программу подбора образцов в якорном режиме к следующему слову, используя множество образцов, соответствующих тому типу объекта, который должен заполнить выбранную падежную роль.
В случае успеха занести полученное значение в качестве заполнителя обрабатываемой падежной связи.5. Перейти к шагу 3.
За исключением случаев, когда входное выражение совершенно не поддается анализу, этот алгоритм выдает некоторую команду и набор (возможно, неполный) аргументов. Он способен игнорировать случайные слова, если они непосредственно предшествуют падежному показателю. Однако он не в состоянии обрабатывать никакие другие виды неграмматичности, о которых говорилось выше. Для их обработки необходимо возвращаться назад, перешагивая любые части входного выражения, пропущенные программой подбора образцов при обработке высказывания в сканирующем режиме. Если после прекращения работы данного алгоритма остались такого типа пропущенные подцепочки, а также незаполненные аргументы команды, то программа подбора образцов будет применяться в сканирующем режиме к каждой пропущенной подцепочке, используя образцы, соответствующие типам заполнителей для незаполненных аргументов. Благодаря этому будут обнаружены любые, стоящие не на том месте аргументы, а также аргументы, падежные показатели которых перепутаны или вовсе пропущены.
Данный алгоритм способен, например, обработать пример с запутанным порядком составляющих —
То Economics 247 Jim Campbell transfer please from Mathematics 121
‘На экономику 247 Джима Кемпбелла переведите, пожалуйста, с математики 12Г —
следующим образом:
— В ходе первоначального поиска глагола-команды будет обнаружен глагол transfer ‘переводить’ и благодаря этому весь дальнейший анализ будет проходить в терминах падежного фрейма этой команды.
— Требуемый после глагола transfer прямой объект не будет найден на ожидаемом месте, поэтому CASPAR перейдет к поиску какого-нибудь падежного показателя.
— Будет найден падежный показатель from ‘из’, и затем CASPAR распознаёт падеж, маркированный предлогом from, и помещает его в слот „исходная точка движения" падежного фрейма глагола transfer.
— Затем анализатор достигает конца входной цепочки, но некоторые падежи остались незаполненными, поэтому CASPAR переходит в режим сканирования, ищет падежные показатели в пропущенном начальном сегменте и находит падеж „конечная точка движения".
— Теперь остаются только сегменты Jim Campbell и please, а во фрейме остается незаполненным падеж „студент", поэтому CASPAR может правильно заполнить данный падеж, а слово please оставить как случайный лишний сегмент.
Несмотря на ограниченную предметную область, CASPAR доказал на практике, насколько хорошо метод активизации падежных фреймов соответствует нашему списку желательных параметров надежного анализа.
— CASPAR использует падежные фреймы в весьма активном, интерпретирующем стиле. Он может, например, искать непосредственно после глагола заполнитель ожидаемого падежа прямого объекта, но, если его там не окажется, он готов распознавать тот же падеж в любом другом месте входной цепочки. Кроме того, когда анализатор сталкивается с нарушенным порядком следования составляющих, он „отступает" и бросает общий взгляд на текущее состояние анализа, рассматривая при этом непроанализированные входные сегменты как потенциальные заполнители еще не заполненных падежей.
— Репрезентация, основанная на падежных фреймах, облегчает привлечение различной семантической информации, например такой, как ограничения на заполнение каждого падежа, соображения о факультативности или обязательности тех или иных падежей, а также знания о том, могут ли какие-то падежи иметь заполнители, связанные с прагматическими ограничениями.
— CASPAR демонстрирует также возможности метода активизации падежных фреймов в плане использования различий между различными типами составляющих по их значимости и легкости их распознавания. Возможности использования таких различий демонстрируются как диапазоном грамматических отклонений, которые способен обрабатывать CASPAR, так и эффективностью его работы при прямом анализе грамматически правильных входных сообщений. Причина такой эффективности кроется в ограниченном числе образцов, с которыми приходится иметь дело программе подбора образцов в каждый данный момент анализа. При первом применении программа имеет дело только с образцами для команд; при последующих применениях чередуются образцы для показателей незаполненных падежей текущей команды и образцы для конкретного типа объектов.
Кроме того, если отвлечься от постобработки временно пропущенных анализатором входных сегментов, то можно утверждать, что функционирование программы подбора образцов в менее эффективном, сканирующем режиме опирается только на образцы для падежных маркеров и команд. Составляющие, которые труднее распознать (например, дескрипции объектов), обрабатываются в более эффективном, якорном режиме.CASPAR не удовлетворяет нашим требованиям только потому, что в нем преобладает обработка сообщения по принципу сверху вниз, но не снизу вверх. Единственный компонент, который ведет обработку снизу вверх,— это начальная фаза распознавания глагола. Если же глагол не обнаруживается, то анализатор терпит полную неудачу. Расширение возможностей анализатора CASPAR в плане преодоления этой трудности могло бы предусматривать начальный анализ заполнителей падежей по принципу снизу вверх и выдвижение гипотезы о существовании глагола, падежный фрейм которого наиболее точно совпадает с набором уже найденных падежных значений (или — при отсутствии четкого выбора — обращение к пользователю с уточняющим вопросом). Очевидно, что это гораздо менее эффективный способ анализа, чем способ, представленный выше, но этот альтернативный вариант показывает, как могла бы интерпретироваться основная информация падежного фрейма при отсутствии в сообщении распознаваемого заголовочного слова.
5.2.