3. ОБЗОР ИССЛЕДОВАНИЙ ПО ПРОБЛЕМЕ НАДЕЖНОСТИ
Предшествующие исследования подходили к проблеме надежного понимания с различных позиций. Хейз и Мурадян (Hayes and Mouradian, 1981) разработали метод гибкого применения грамматики к реальным высказываниям, что позволяет строить интерпретации для разнообразных отклонений от грамматической нормы.
В этой работе используется анализатор, действующий по принципу „снизу вверх" с применением подбора образцов; существенно, что этот анализатор предусматривает прерывание анализа и продление (parse suspension and continuation) дуг в расширенной сети переходов (Woods, 1970). Помимо использования факультативных элементов в образцах, гибкость достигается за счет ослабления ограничений на непротиворечивость и за счет того, что допускаются соответствия образцу с нарушением порядка. Квасны и Зондгеймер (Kwasny and Sondheimer, 1981) дополнили модель Хейза и Мурадяна, развив принцип фиксации характера встречающихся грамматических отклонений. Их анализатор применяет к дугам расширенной сети переходов методику ослабления грамматических правил. Когда встретившаяся в ходе анализа дуга нормативной грамматики, определяющей структуру правильного высказывания, не может быть пересечена (с точки зрения нормы), то делается специальная помета об отклонении, а дуга все же пересекается. Эта помета фиксирует тип отклонения анализируемого высказывания от ожидаемой грамматической формы и позволяет продолжать анализ даже при наличии ненормативных синтаксических вариантов. Кроме того, методика релаксации лексических признаков позволяет проводить анализ в тех случаях, когда вместо правильного слова в высказывании стоит другое, не обладающее нужным признаком.
Оба названных исследования страдают во многом одними и теми же недостатками. Во-первых, хотя каждое из них стремится сконцентрировать внимание на какой-то конкретной части проблемы, проверить эффективность того и другого подхода без семантического компонента весьма затруднительно.
Во-вторых, ни тот, ни другой подход не обеспечивает вывода очередной интерпретации в случае, если первоначальное предположение оказывается неправильным. В-третьих, эти подходы не дают метода обработки высказываний с пропущенными словами. Наконец, способность каждого из этих подходов преодолевать синтаксическое варьирование ограниченна: они предусматривают средства обработки вариативных синтаксических структур лишь для некоторого подмножества типов синтаксических явлений, обрабатываемых в нормативной форме их анализаторами.В более поздней статье Вейшедель и Зондгеймер (Weische- del and Sondheimer, 1983) описывают исследование, которое значительно расширяет диапазон применения идей, изложенных в работе Kwasny and Sondheimer, 1981. Предлагаемое ими расширение связано с использованием метаправил, служащих для обработки неправильно построенных входных сообщений. Назначение этих метаправил состоит в том, чтобы распознавать каждый данный случай неправильности и предписывать действия, которые могут привести к пониманию сообщения. Хотя идея использования метаправил применима как будто и для обработки правильных высказываний и представляется вполне достойной внимания, все же концепция метаправил отличается от нашего подхода в двух важных аспектах. Во-первых, Вейшедель и Зондгеймер занимаются только задачей обработки неправильно построенных высказываний и оставляют на будущее задачу интеграции этого подхода с методиками обеспечения других аспектов надежности. Во-вторых, что более важно, их подход к обработке неправильно построенных сообщений в программном отношении отличается от общего анализа механизма, на который этот подход накладывается, тогда как наше исследование строит обработку неправильно построенных сообщений с применением того же механизма, который используется для обработки правильно построенных сообщений.
Хейз и Карбонелл (Hayes and Carbonell, 1981) описывают исследование, более близкое по своим идеям к тому, которое представлено в настоящей статье.
Ими создано два различных экспериментальных анализатора, в которых объединено несколько разных подходов. В анализаторе CASPAR представлены принцип поиска семантического падежного фрейма и принцип подбора линейных образцов (в плане выражения), в результате чего строится представление значения для входного сообщения. В анализаторе DYPAR для построения представления значения высказывания используется объединение следующих механизмов: контекстно свободной семантической грамматики, механизма частичного подбора образцов и эквивалентных трансформаций. (Заметим, что программа DYPAR, описанная в работе Hayes and Carbonell, 1981, совершенно отлична от программы DYPAR, описанной Дайером в работе Dyer, 1982.) Хотя оба анализатора используют как будто многообещающие методики, ни CASPAR ни DYPAR не обнаруживают надежности в сколько-нибудь высокой степени. Так, программа CASPAR может обрабатывать:— неожиданные и неопознанные междометия в составе входного сообщения,
— случаи отсутствия показателей семантических падежей,
— нарушения ожидаемого порядка следования семантических падежей в высказывании,
— случаи неоднозначности распознавания падежей, но она не может:
— понимать высказывание, если отсутствует слово, значение которого задает фрейм главного семантического падежа,
— осуществлять повторное распознавание смысла высказывания,
— обрабатывать эллипсис,
— понимать высказывание, если в нем произвольно нарушен порядок слов или если в нем пропущены слова.
тя она функционирует в рамках интересной системы управления базой данных, степень ее надежности неясна.
В работе Carbonell and Hayes, 1983, описывается исследование, развивающее результаты, представленные в статье Hayes and Carbonell, 1981. Они описывают ряд „стратегий преодоления" коммуникативных неудач; эти стратегии позволяют продолжать процесс понимания, несмотря на наличие в сообщении того, что авторы называют „внеграмматичностью", которая устанавливается с помощью программ CASPAR, DYPAR, а также анализатора, названного DYPAR-II.
Хотя этот подход напоминает подход, излагаемый в настоящей статье, он все же основан во многом на альтернативных принципах решения тех же проблем — принципах, которые сосредоточивают внимание на нескольких различных механизмах обработки различных явлений, а не на едином, интегральном механизме, как он представлен в следующем разделе. Более того, по-видимому, не существует никакой единой программы, которая использовала бы все стратегии, описанные в упомянутой статье, и поэтому полезность этих стратегий, взятых в целом, оценить весьма непросто. Наконец, ни одна из предложенных программ, как представляется, не способна продолжать порождение альтернативных интерпретаций сообщения до момента подтверждения правильности со стороны пользователя; эти программы не дают гарантии, что входное сообщение будет в конце концов понято.Каждая из понимающих систем, построенных в рамках других парадигм, обладает своей степенью надежности. Так, понимающие системы, которые можно было бы назвать „семантически ориентированными", продемонстрировали высокий уровень понимания, при котором на основе входного высказывания автоматически строится представление значения этого высказывания. Например, системы ELI и SAM (Riesbeck and Schank, 1976; Cull ing ford, 1978), CA (Birnbaum and Sel fridge, 1981), АСЕ (С u 11 і n g f о r d, Krueger, Selfridge and Bienkowski, 1981) близки по духу системе МЭРФИ в том, что каждая из этих систем стремится объединить значения слов в представление значения высказывания как целого, а затем предоставить возможность механизмам последующей обработки памяти иметь доступ к результатам этого процесса понимания. Однако эти программы в лучшем случае могут мыслиться как демонстрация эффективности понимания, основанного на обработке знаний, в то время как потенциальные возможности интегральной обработки им использовать в полной мере не удается. Каждая из этих систем довольно чувствительна к пропуску слов и к варьированию синтаксиса, хотя каждая обладает в этом плане определенными возможностями.
Есть и другие системы, имеющие отношение к развиваемому нами подходу: это система NOMAD (Granger, 1984) и системы, описываемые в работах Wilks, 1976, и Fass andWilks, 1983. Однако эти системы отличаются существенно иной трактовкой проблемы надежности. Например, хотя система NOMAD и строит альтернативные интерпретации трудного для понимания входного сообщения, а также обеспечивает одновременное использование синтаксических знаний и знаний о мире в процессе понимания, она все же не дает гарантии получения в конечном итоге нужного значения входного сообщения (заметим, что в области функционирования системы NOMAD подобная задача была бы нелегкой в любом случае, ибо входные сообщения здесь строятся не пользователем, а поступают из третьего источника); кроме того, в этой системе обработка языковых выражений и обработка знаний, содержащихся в памяти, осуществляются, по-видимому, не одним и тем же, а разными механизмами. То же можно сказать и о системах, описанных в статьях Wilks, 1976, и Fass and Wilks, 1984: будучи близкими к системе МЭРФИ в плане использования методики предпочтений, они не гарантируют получения в конечном итоге нужного понимания высказывания, а также характеризуются использованием разных механизмов для обработки языковых данных и данных, хранящихся в памяти.
Наконец, важно упомянуть механизмы понимания, основанные на знаниях и отличающиеся высокой эффективностью функционирования, как, например, в системах, описанных Дайером (Dyer, 1982) и Лебовицем (Lebowitz, 1980). Эти программы демонстрируют впечатляющие способности понимания, соответственно в области понимания сложных рассказов о межличностных отношениях и в области газетных сообщений об актах терроризма. Они убедительно демонстрируют и эффективность процессов обработки знаний высокого уровня в случае трудных задач на понимание. Однако ни та, ни другая системы не уделяют специального внимания вопросу надежности в том понимании этого термина, как он используется в настоящей статье.
Конечно, полное решение проблемы надежности будет включать высокоэффективные процессы обработки памяти, подобные тем, которые используются в упомянутых системах.Все системы, рассмотренные в настоящем разделе, обеспечивают определенную надежность в том или ином аспекте, но каждая из них оставляет желать лучшего. Конечно, можно представить себе расширение той или иной системы в плане устранения различных ее ограничений, но судить об успешности таких расширений при отсутствии полной реализации весьма и весьма трудно; на основе подобных гипотетических расширений практически невозможно выносить какую-либо оценку. Таким образом, предшествующие исследования не привели к построению системы, понимающей естественный язык, которая была бы надежной во всех аспектах, интересующих нас в данной статье.
Чтобы построить надежный естественноязыковой интерфейс, необходимо определить отношения между синтаксисом и семантикой, а также между пониманием языка и обработкой памяти, ибо реальная работа по созданию такого интерфейса требует опоры на вполне определенные отношения между этими компонентами.
Шенк и Бирнбаум предлагают решение указанных проблем в рамках выдвигаемой ими гипотезы об интегральной обработке (Schank and Birnbaum, 1981). На основе их рассуждений можно обобщенно резюмировать сущность этих проблем в виде следующих трех вопросов:
1) Обрабатывается ли синтаксическая структура раньше семантической или синтаксис и семантика обрабатываются одновременно?
2) Разделены ли процессы обработки синтаксиса и семантики или обработка этих структур образует единый процесс?
3) Являются ли обработка языковых сообщений и обработка знаний, содержащихся в памяти, разными процессами или они составляют принципиально один и тот же процесс?
Как отмечается в статье Шенка и Бирнбаума, существуют, грубо говоря, две полярные точки зрения на эти вопросы. Одну из них можно назвать «сепаратистской», а другую — «интегральной». Каждую из них можно охарактеризовать с помощью ответов на указанные вопросы. Первый вопрос касается временного соотношения семантической и синтаксической обработки в ходе процесса понимания. Согласно сепаратистской точке зрения, синтаксический анализ высказывания осуществляется до любого вида семантического анализа, а на его выходе мы получаем синтаксическое описание высказывания. Это описание затем подается на вход семантического анализа. Такому представлению противостоит интегральная концепция, согласно которой синтаксический анализ выполняется в то же самое время, что и семантический анализ. Таким образом, временной порядок синтаксического и семантического анализа в ходе обработки языковых сообщений является дискуссионным моментом, и при построении надежного естественноязыкового интерфейса он должен быть предметом сознательного рассмотрения.
Второй вопрос касается природы механизмов, обрабатывающих синтаксические и семантические структуры. В соответствии с сепаратистской точкой зрения механизм, строящий синтаксическое описание высказывания, отличен от механизма, строящего представление значения высказывания. Иначе говоря, согласно этому взгляду, синтаксический анализ осуществляется по иному алгоритму, чем семантический анализ. Интегральная точка зрения, напротив, утверждает, что синтаксис и семантика обрабатываются одним и тем же механизмом. Этот механизм одинаково успешно оперирует как синтаксической, так и семантической информацией. Таким образом, мы имеем дело с двумя совершенно различными позициями, и при построении надежного естественноязыкового интерфейса должен быть сделан выбор.
Третий вопрос касается взаимоотношений между обработкой языковых сообщений и обработкой памяти. Сепаратистская позиция состоит в том, что обработка языка — это особая, специфическая функция, во многом не связанная с процессами обработки памяти. В рамках этого взгляда память трактуется как относительно пассивная сущность, лишь в малой степени затрагиваемая активной обработкой. Интегральная позиция, однако, придерживается иной точки зрения на роль памяти в процессах обработки языковых сообщений. Представители этой точки зрения считают, что обработка языковых сообщений — это прежде всего процесс, основанный на операциях с памятью, и далее они приходят к выводу, что обработка языка и обработка памяти составляют единый процесс. Данный вопрос имеет особое значение, потому что надежный интерфейс должен будет, по-видимому, опираться на тот или иной вид обработки памяти.
Заметим, что возможна и промежуточная точка зрения между двумя указанными полюсами. Можно придерживаться интегральной концепции по отношению к одному-двум конкретным вопросам и занимать сепаратистскую позицию по отношению ко всем остальным вопросам. Например, Бобров и Веббер (Bobrow and Webber, 1980) описывают естественноязыковый интерфейс, в котором синтаксис и семантика обрабатываются по типу одновременного, логически перемежающегося процесса, но в котором тем не менее синтаксис и семантика обрабатываются разными механизмами и в котором обработка языка и обработка памяти производятся различными механизмами. И все-таки разграничение двух указанных точек зрения представляется полезным.
Гипотеза Шенка и Бирнбаума об интегральной обработке — это прежде всего гипотеза о том, что интегральная точка зрения правильно отражает природу обработки языковых сообщений человеком; сущность этой гипотезы можно выразить следующим образом:
Синтаксические и семантические структуры обрабатываются одновременно.
Синтаксис и семантика обрабатываются в ходе одного и того же процесса.
Обработка языковых сообщений по своей природе тождественна обработке памяти.
Шенк и Бирнбаум приводят подробную аргументацию для обоснования данной гипотезы, но для нас здесь главное заключается в ее следствиях для моделирования человеческого понимания, а именно: если гипотеза об интегральной обработке действительно описывает обработку языковых сообщений человеком и если учесть, что человек воплощает в себе надежный языковой процессор, то один из путей построения надежного естественноязыкового интерфейса — это включение данной гипотезы в интерфейс, работающий в режиме естественного языка. Это приводит нас к предположению, что «интегральная обработка обеспечивает надежное понимание»; для краткости его можно обозначить как гипотезу ИООНП (integrated processing produces robust understanding conjecture — IPPRU conjecture).
Важно понимать, о чем не говорится в данной гипотезе. Гипотеза ИООНП не утверждает, что принятие гипотезы об интегральной обработке является необходимым для обеспечения надежного понимания, а утверждает только, что это один из подходов, который работает. Хотя установление необходимости гипотезы об интегральной обработке для надежного понимания и представляется нам желательным, такая задача в данной статье не ставится. Правда, исследование, описываемое нами, относится к первому шагу на пути доказательства этой необходимости. Ни гипотеза об интегральной обработке, ни гипотеза ИООНП не утверждают тождественности синтаксического и семантического знания. Хотя при нашей концепции синтаксис и семантика обрабатываются в одно и то же время и одним и тем же механизмом, в настоящей работе предлагается иное разграничение синтаксиса и семантики. Это разграничение основано на знаниях, а не на процессах обработки. Иначе говоря, согласно этой точке зрения, различие между синтаксисом и семантикой кроется в специфике знания, представляемого в соответствующих структурах, а не в порядке их применения и не в механизмах их обработки.
Общая оценка гипотезы ИООНП включает несколько вопросов. Как лучше всего учитывать гипотезу об интегральной обработке при построении программы? Какова должна быть предметная область такой программы? Как оценивать ее функционирование?
Прежде чем обратиться к вопросу о способе отражения гипотезы об интегральной обработке в конкретной программе, надо провести важное разграничение между:
— программой, которая может иметь несколько модулей, но которая учитывает гипотезу об интегральной обработке благодаря строению используемых ею алгоритмов и способу манипулирования данными, и
— программой, которая не только учитывает гипотезу об интегральной обработке, но и сама является интегрированной, то есть не распадается на модули.
В идеальном случае гипотеза об интегральной обработке лучше всего учитывается в программе, которая и сама является действительно интегральной. Однако построение такой полностью интегрированной программы — длительный процесс, и он требует решения ряда трудных конструкторских задач. Чтобы получить необходимую информацию, на основании которой могли бы разрабатываться эти конструкторские решения, была создана система МЭРФИ как первый, эскизный прототип, который, не являясь в полной мере интегрированным, все-таки учитывает гипотезу об интегральной обработке. Таким образом, функционирование МЭРФИ имеет прямое отношение к гипотезе ИООНП, хотя сама система МЭРФИ и не является полностью интегрированной.
Второй вопрос касается предметной области, в рамках которой действует программа, работающая в режиме естественного языка. В идеале предметная область должна быть большой и представленной в реальной жизни. Однако, поскольку целесообразность затраты усилий на большую и реальную область должна быть оправдана высоким качеством функционирования системы в пределах ограниченной области, представляется удобным в качестве первого шага проводить эксперименты сначала именно на такой ограниченной области. Подобной тактики придерживались и другие исследователи рассматриваемых проблем, например: Hayes and Mouradian, 1981; К wasny and Sondheimer, 1981; Hayes and Carbonell, 1981; Dyer, 1982; L e b о w і t z, 1980. Ограниченная семантическая область, избранная для настоящего исследования,— это область действий робота по осуществлению сборочных операций в лабораторных условиях. Данная область удобна для наших экспериментов, поскольку она является подмножеством более широкой реальной промышленной области и дает критерий итогового понимания — это степень успешности выполнения системой наших команд, построения ответов на вопросы, а также запоминания и использования декларативных сообщений.
Третий из сформулированных вопросов касается критериев оценки исследования в целом (с точки зрения обеспеченности надежности). При каких условиях можно считать его успешным? Представляется, что наиболее важны два критерия: во-первых, функционирует ли интерфейс надежно в пределах своей исходной предметной области? Иначе говоря, отвечает ли он требованиям, описанным в разд. 2? Во-вторых, позволяет ли он определить пути применения соответствующей методики для случая расширенной предметной области или для случая полной смены предметной области? Другими словами, ясны ли его ограничения, очевидны ли проблемы, требующие отдельного исследования, и имеются ли убедительные доказательства того, что такое дополнительное исследование окажется успешным? Положительные ответы на оба эти вопроса будут означать, что настоящее исследование может считаться успешным.
В данном разделе подробно описывается система МЭРФИ. Она состоит из четырех крупных компонентов. Это следующие программы:
— Анализатор естественного языка (АЕЯ), который обращается к словарю слов и фразеологических единиц и осуществляет применительно к словам входного высказывания понимание низшего уровня;
— Программа вывода умозаключений (Блок надежного понимания — БНП); этот блок завершает процесс понимания, опираясь на знания о предшествующей части диалога, на непосредственный контекст и на знания о предметной области;
— Программа управления диалогом (ПУД), которая производит вывод умозаключений на основе значений входных высказываний пользователя и обеспечивает способность к диалогу со смешанной инициативой, а также позволяет МЭРФИ взаимодействовать с робототехнической системой сборки;
— Генератор естественного языка (Концептуальный генератор — КГ), который, отталкиваясь от понятий, выражает их на естественном языке.
Высказывание пользователя, обращенное к МЭРФИ, сначала анализируется программой АЕЯ с максимальной возможной степенью глубины. Затем АЕЯ передает результат своего понимания в БНП, который завершает процесс понимания, используя знания о предметной области и о предшествующей части диалога. Далее БНП проверяет полученное понимание с помощью пользователя и в случае ошибки выводит очередное, наиболее правдоподобное (с точки зрения логики этого блока) значение, и так далее до тех пор, пока БНП не выведет нужное значение или не исчерпает свои возможности. В последнем случае управление снова передается АЕЯ, который строит очередное, наиболее правдоподобное понимание на основе доступных ему средств, и это понимание опять передается в БНП для вывода умозаключений. Когда нужное значение подтверждается пользователем, оно передается в ПУД, которая применяет правила типа «тест — действие» и выводит ответную реакцию на входное высказывание. Одни реакции сводятся к уточняющим вопросам, адресованным пользователю, или к ответам на его вопросы, другие заключаются в выводе чисто внутренних умозаключений, а третьи являются командами, которые направляются в робототехническую систему сборки. В любой момент работы интерфейса может подключаться КГ, используемый по мере необходимости для порождения ответных реакций на естественном языке.
Почти каждый компонент МЭРФИ имеет отношение к вопросу о надежном понимании; АЕЯ, БНП, ПУД, словарь, контекст, знания
о предметной области — все эти части системы играют важную роль. В данном разделе мы сначала описываем по очереди каждую из этих частей, а затем показываем, каким образом все эти компоненты учитывают гипотезу об интегральной обработке.
5.1.