СТРУКТУРНЫЕ МОДЕЛИ ЯЗЫКА
Теоретико-множественные модели. За последние несколько лет предложен также ряд структурных моделей описания и анализа языковых явлений. Беглый просмотр соответствующей литературы убеждает нас в том, что ученые основываются в большинстве случаев на современной алгебре и математической логике.
Заимствуются не только понятия и методы анализа; во многих случаях все металингвистическое описание строго следует образцу дедуктивных математических систем[154]. Описание нескольких исследований, содержащих применение теории множеств и родственных областей математической логики, поможет нам осветить характер достижений, имеющихся в этой области.Харари и Пейпер (Н а г а г у and Paper, 1957) в своей статье описывают применение теории отношений для построения строгой математической схемы описания дистрибуции фонем. Авторы исходят из множества Р всех фонем языка и из отношения «непосредственно предшествовать» R; затем они описывают дистрибуцию данной фонемы на основе шести свойств отношений, в число которых входит рефлексивность, симметричность и транзитивность. В рамках этой системы типичное утверждение о дистрибуции фонем имеет следующую форму: «фонема х симметрична фонеме у»; это означает, что в рассматриваемом языке встречается как последовательность /ху/, так и /ух/. После этого на основную алгебраическую структуру модели накладываются дополнительные количественные характеристики: вводится множество простых числовых индексов, которые определяются процентом числа случаев, при которых дистрибуция фонемы обладает данным реляционным свойством[155]. Индексы, представленные в этой работе, очень напоминают те индексы, которые использовал в своих типологических исследованиях морфологии Гринберг (Greenberg, 1954); Харари и Пейпер и сами предполагают, что их модель может быть использована для типологического исследования дистрибуции фонем.
Каковы бы ни были успехи этого направления исследований в будущем, утверждение авторов о том, что их модель сделала понятие «свободы дистрибуции» более точным, достаточно хорошо подтверждается их собственными примерами. Спорным является только вопрос о том, в какой мере возможно распространение этой модели на я-местные последовательности без утраты простоты и ясности, свойственных данному варианту.Ряд алгебраических и логических представлений фонологических систем был предложен Унгехойером (U nge- h е и е г, 1959а) в его исследовании логических оснований теории различительных признаков Якобсона. Унгехойер рассматривает различительный признак как класс с заданным дополнением; с другой стороны, он представляет различительный признак как переменную, принимающую два значения; на множестве таких переменных задаются булевы функции[156]. С помощью этих моделей он оказывается в состоянии выразить различие между «естественной» избыточностью звуковой системы и избыточностью формальной системы, возникающей в результате анализа, при котором некоторые признаки обычно объявляются иррелевантными. Второй подход, описанный Унгехойе- ром, учитывает некоторые психологические соображения; здесь значимым признается лишь наличие положительного значения признака. Продолжая идти по этому пути, он описывает «пространство» всех возможных фонем в теоретико-множественных терминах — как множество N всех подмножеств множества различительных признаков. Он утверждает, что множество N может быть описано математически различными способами — например, как булева алгебра, где признаки играют роль образующих. Унгехойер делает, впрочем, вполне уместное предупреждение о том, что в этих моделях не следует «читать» слишком многое: любое применение высокоразвитой математической теории требует более полного понимания сути описываемых явлений.
Построение грамматик для машинного перевода, основанных на теоретико-множественных понятиях, описывается в недавней работе Кулагиной (Кулагина, 1958).
Неопределяемые понятия, такие, как «слово», отмеченная фраза, играют в формальных построениях Кулагиной роль аксиом. На этом фундаменте воздвигается иерархия грамматических классов — она получается в результате точно определенной последовательности делений исходного множества на непересека- ющиеся подмножества. На самом низком уровне — на уровне разделения слов на «семейства» — члены данного подмножества могут подставляться один вместо другого в предложение, не меняя его грамматической правильности. Переходя постепенно к более высоким уровням, Кулагина вводит формальный аппарат, который достаточен для анализа некоторых простых грамматических понятий французского языка; Кулагина утверждает при этом, что для русского языка эта система недостаточна — в частности из-за того, что в любом падеже существительные образуют три различных семейства в единственном числе и только одно во множественном. Предложенная модель имеет ряд ограничений также в других отношениях; в частности, в системе взаимно исключающих друг друга грамматических категорий не предусматривается тех случаев, при которых одна и та же форма может принадлежать к более чем одной части речи — а такую возможность, разумеется, нельзя игнорировать в машинном переводе.Прежде чем переходить к синтаксическим моделям, уместно, по-видимому, упомянуть об усилиях, затраченных на построение «исчисления неколичественных функций» лингвистами глоссематической школы; это исчисление представляет собой, по замыслу, новую алгебру, предназначенную для описания явлений, тесно связанных с человеком, таких, как язык. Алгебра глоссематиков, так, как она представлена Ульдаллем (Н j е 1 m s 1 е v and U 1 d а 1 1, 1957), во многом использует терминологию и символику логической теории множеств, с той особенностью, что некоторые вполне обычные понятия — такие, как функция или отрицание,— определяются совершенно необычным образом. Более того, как указывал один из критиков (Ungeheuer, 1959 b), терминология глоссематики не всегда используется последовательно самими Ельмслевом и Ульдаллем, видимо, вследствие смешения понятий, которые в формальной логике обычно трактуются как различные.
Из анализа того, что написано глоссематиками к настоящему времени, следует, по всей вероятности, что их алгебра -сильно выиграет от перехода на обычную систему логических понятий.Модели синтеза предложения и описания синтаксической структуры. Вся остальная часть разд. 3 будет посвящена рассмотрению синтаксических моделей. Прежде всего мы рассмотрим описание синтаксической структуры и синтез предложения, а после этого перейдем к моделям, предназначенным для синтаксического анализа. Хотя исследования, которые описываются в этой второй части, значительно отличаются друг от друга по своим масштабам и общей направленности, все они подчинены одному и тому же замыслу — построить систематическую механическую процедуру синтаксического анализа текстов, прежде всего в связи с машинным переводом. Первая группа в этом отношении менее однородна; тем не менее модель Ингве для порождения предложений (Y n g V е, I960) будет рассматриваться вместе с описательными по своему характеру моделями Хэрриса (Harris, 1957) и Хомского (Chomsky, 1957), поскольку все эти модели, без сомнения, имеют между собой много общего. Классификация грамматик, произведенная Хомским, согласно которой все грамматики делятся на три типа — грамматики с конечным числом состояний, грамматики непосредственно составляющих и трансформационные грамматики,— представляет для нас удобную схему изложения, хотя центр внимания здесь будет несколько иным.
Грамматика с конечным числом состояний (Chomsky,
1957) может быть охарактеризована как устройство с конечным числом внутренних состояний, которое порождает[157] предложения языка следующим образом: от начального состояния устройство переходит во второе состояние, «производя» первое слово предложения; затем, производя по слову при каждом новом переходе, устройство переходит от одного состояния к другому, пока не достигнет конечного состояния. За это время оно порождает законченное предложение. Такое устройство является особым видом марковского процесса с конечным числом состояний, и поэтому оно может быть представлено, как обычно представляют такие процессы,— «диаграммой состояний», в которой каждое состояние обозначается точкой или маленьким кружочком, а каждый дозволенный переход — стрелкой, связывающей соответствующие точки.
Диаграммы такого типа, обычно дополненные указанием вероятности каждого перехода, часто используются в теории информации для моделирования статистических свойств источника с конечным алфавитом символов[158].В одной из своих ранних статей по машинному переводу Ингве (Y n g v е, 1955) предлагает использовать диаграммы состояний как возможное средство сжатия грамматики — средство, достаточно сильное для того, чтобы предложения целиком могли помещаться в память вычислительной машины. Как первый шаг в достижении этого сжатия предлагается связать переход от одного состояния к другому не со словом, а с частью речи. Дальнейшее упрощение может быть достигнуто за счет объединения отдельных путей в типовые синтаксические группы, далее, в типы простых предложений и, наконец, в типы фраз. Последние уровни этих многоступенчатых грамматик с конечным числом состояний до конца не разработаны, поэтому об их возможностях пока судить трудно. Хомский (С h о гп s к у, 1956, 1957) показал, однако, что грамматики с конечным числом состояний по самому своему существу неспособны отразить свойства некоторых конструкций английского языка, где возможна бесконечная рекурсия. Такие чисто теоретические аргументы, разумеется, не исключают возможности построения грамматики с конечным числом состояний для довольно сложных предложений, с которыми приходится иметь дело при машинном переводе; тем не менее это достаточно убедительное свидетельство того, что такая грамматика будет недопустимо сложной.
Вторая грамматическая модель, рассмотренная Хомским,—это модель структуры составляющих или грамматика непосредственно составляющих. В различных своих формах эта модель использовалась американскими лингвистами в течение достаточно длительного периода[159]. Хомский формализовал эту теорию, определив грамматику непосредственно составляющих как операционную систему (2, F)y состоящую из. конечного множества 2 начальных цепочек и конечного множества F правил, определяющих структуру составляющих; правила имеют простую форму X-+Y.
Правила из F применяются к цепочкам по одному и производят новые цепочки; каждое правило определяет замену одного символа одним или несколькими другими символами.Во всех интересных случаях повторное применение правил развертывания, начиная с одной из начальных цепочек, дает такую последовательность цепочек, что к самой последней из них правила из F уже неприменимы. Такие неизменяемые цепочки, называемые терминальными, являются предложениями языка, описываемого (2, Е)-грамматикой. Последовательность цепочек, полученная в ходе порождения предложения, определяет структуру составляющих этого предложения, которая может быть представлена диаграммой вида дерева.
Грамматики непосредственно составляющих, как показал Хомский, лишены тех недостатков, которые в первую очередь бросаются в глаза при рассмотрении грамматик с конечным числом состояний: такие грамматики способны отразить рекурсивные свойства естественных языков — для этого достаточно включить в F рекурсивные правила. Хомский показал, однако, что в английском языке имеются типы конструкций — в частности, конструкции с прерванными составляющими,— для которых модель непосредственно составляющих в лучшем случае даст громоздкое описание. Считая на этом основании, что на уровне составляющих никакой приемлемой модели построить нельзя, Хомский (Chomsky, 1957, сноска 6, стр. 41—42) предлагает в качестве пути преодоления этих трудностей новый, более высокий уровень описания — уровень грамматических трансформаций. Однако прежде чем перейти к обсуждению трансформаций, рассмотрим модель автоматического синтеза предложения, построенную преимущественно на аппарате грамматики непосредственно составляющих.
Некоторые из последних работ Ингве посвящены исследованию моделей устройства предложения, которые можно было бы использовать в качестве составной части программы синтеза при машинном переводе. Поскольку подход Ингве ориентирован на машинное использование модели, то в основе его лежит требование о том, что устройство, порождающее предложения, должно иметь конечную оперативную память. Используя грамматику ненепосредственно составляющих, описанную выше[160], механизм порождает предложение слева направо, причем правила подстановки всегда применяются сначала к более левому димволу в цепочке, чем к тому, который правее его; таким образом производится вся терминальная цепочка. Промежуточные результаты хранятся в оперативной памяти, где ввод и считывание возможны всегда только с одного конца, в соответствии с правилом о порядке развертывания символов. Этот тип устройства памяти,описанный в литературе как магазинная память (pushdown store), как было показано Эттингером (О е t t і n g e r, 1960b), имеет важные применения в автоматическом синтаксическом анализе; некоторые из этих применений будут рассмотрены ниже[161].
Один из интересных аспектов модели Ингве состоит в том, что предложение порождается вместе с эксплицитным описанием его разложения на составляющие. Это описание построено по принципу бесскобочной символики Лукасевича (Lukasiewicz, 1957): за каждым узлом дерева составляющих непосредственно следуют узлы, которые от него ответвляются. В ходе обсуждения адекватности этой модели Ингве показал непосредственную связь между структурой дерева предложения и объемом оперативной памяти, который необходим для ее порождения. На основе нумерации ветвей, отходящих от одного узла (нумерация производится справа налево), он определяет «глубину» каждого из конечных (тупиковых) узлов: это сумма чисел, сопоставленных ветвям, которые ведут к этому узлу. Максимальная из длин конечных узлов называется глубиной предложения. Оказывается, что это как раз число «единиц объема» оперативной памяти, необходимое для порождения данного предложения.
Ингве показал, что глубина предложения зависит от направления ветвей в соответствующем ему дереве. Предложения, у которых деревья ветвятся преимущественно влево, имеют относительно большую глубину; те, у которых деревья ветвятся в основном вправо,— относительно малую. Эти два типа структур Ингве назвал соответственно регрессивным и прогрессивным. Из наблюдения над явлениями, связанными с глубиной предложений английского языка, Ингве заключает, что в английском языке существуют верхний предел глубины предложения, и это довольно точно согласуется с данными Миллера (Miller, 1956) о приблизительном объеме непосредственной памяти у человека. Ингве указывает, кроме того, что в английском языке существуют многочисленные средства уменьшения глубины предложений при сохранении выразительных возможностей языка; к таким средствам относятся прерванные конструкции, вводное употребление it и т. д. Многие ненужные на первый взгляд сложности грамматики, как он утверждает, оказываются вполне целесообразными, так как использование разных конструкций в одном и том же значении является одним из средств ограничения глубины.
Ингве обобщил свои наблюдения над английским языком в форме гипотезы о том, что различные языки будут вести себя по отношению к глубине одинаковым образом. Эта гипотеза, несомненно, имеет значение не только для лингвистики, но и для психологии. Если проверка гипотезы Ингве на других языках даст положительные результаты, то этот механизм порождения предложений нужно будет принять в качестве модели порождения речи человеком — независимо от того, какова окажется роль этого механизма в машинном переводе.
Возвращаясь теперь к грамматическим трансформациям (это понятие было формализовано Хэррисом — Harris, 1952 — в связи с его работой по анализу текста), мы рассмотрим самые последние описания трансформационного анализа в работе Хэрриса (Harris, 1957) и Хомского (Chomsky, 1956, 1957). Хотя в работах Хэрриса и Хомского, как они сами указывают, имеется большее число общих идей, исследования этих ученых развиваются сейчас в резко различных направлениях. Хэррис описывает грамматические трансформации через совместную встречаемость различных классов морфем в разных предложениях. Он вводит трансформацию как средство соотнесения друг с другом различных конструкций с одинаковыми классами совместной встречаемости. После того как введен уровень трансформаций, нет оснований рассматривать все типы предложений независимо друг от друга: предложения, в которых дистрибуция контекстных классов такая же, что и в ранее рассмотренных предложениях, может считаться результатом трансформации последнего. Далее, сложные предложения и некоторые последовательности предложений часто должны рассматриваться как результат соединения одного предложения с результатом трансформации другого предложения.
Развивая более формальную часть своей грамматической теории трансформаций, Хомский и Хэррис сходятся на том, что в языке имеется так называемое ядро. Ядро состоит из элементарных предложений, из которых с помощью трансформаций получаются все остальные предложения языка.
В трансформационной грамматике Хомского к ядру относятся простые предложения в утвердительной форме, не содержащие пассивных конструкций, то есть предложения, которые могут быть порождены с помощью грамматики непосредственно составляющих. Трансформационная часть грамматики, которая составляет уровень, независимый от уровня непосредственно составляющих, содержит правила, превращающие цепочку с некоторой заданной структурой составляющих в цепочку с другой структурой составляющих. Эти правила трансформаций в результате применения их к простым предложениям из ядра способны породить все оставшиеся предложения языка. Хомский подчеркивает, что трансформационные грамматики по своей природе являются более сильным средством порождения предложений, чем грамматики непосредственно составляющих,— не только ввиду упрощения, связанного с различением двух уровней в синтаксическом описании[162], но и вследствие фундаментального различия этих уровней: символы данной цепочки содержат всю информацию, необходимую для определения того, какие из правил грамматики непосредственно составляющих могут быть к ней применены; между тем, для определения применимости трансформации к данной цепочке может потребоваться информация о предыдущих этапах вывода этой цепочки, например информация о том, принадлежит ли эта цепочка к типу NP (именная группа) и может ли она подвергаться трансформациям, которые являются законными для именных групп[163].
Как утверждает Хомский, трансформационные грамматики не только дают более простой и более мощный аппарат описания синтаксиса естественных языков, но обладают и другими достоинствами. К таким достоинствам относится, например, то, что двусмысленность выражений типа the shooting of hunters («стрельба охотников» или «расстрел охотников») получает в трансформационной грамматике простое объяснение: данная конструкция является результатом трансформации двух различных ядерных предложений; в одном hunters является подлежащим, во втором — дополнением. Уорс (W о г t h, 1958) попытался недавно использовать это свойство трансформаций для классификации конструкций с творительным падежом в русском языке. В заключение своего исследования Уорс выдвигает общий тезис о том, что трансформационный аппарат может не только оказаться полезным для установления более тонкой классификации конструкций, но и послужить удобной схемой проверки обязательности того или иного типа определения. Работа Уорса в силу своей чрезвычайно узкой направленности не может еще служить доказательством возможности построения полных трансформационных грамматик естественных языков. Успешность этой работы показывает, однако, что время для широкомасштабной проверки модели Хомского уже назрело. Как указывает Лиз (Lees, 1957), оценка модели Хомского в конечном счете должна определяться тем, каковы будут результаты ее применения к естественным языкам.
Модели синтаксического анализа. Как известно, искусственно построенные системы обозначений в логике и в математике обладают регулярностью и простотой синтаксического построения, отсутствующей в естественном языке. Как подчеркивает Ингве (Y ngve, 1960), синтаксическая система естественного языка может содержать большое количество различных средств для выражения одного и того же грамматического отношения (например, отношения подчинения), тогда как характерным свойством формально-логических языков является то, что они, как правило, пользуются в таких случаях каким-то единообразным способом. Несмотря на огромные различия по степени сложности, между синтаксическими системами естественных и логических языков существует немалое сходство, и это позволяет утверждать, что логические языки моделируют свойства естественных языков, притом нетривиальным образом. Эта тесная связь между естественными и логическими языками имеет большое значение для разработки автоматических методов синтаксического анализа языка в связи с машинным переводом.
Главное понятие в синтаксической теории формальнологических языков — понятие правильно построенной формулы — тесно связано с понятием грамматической правильности, обычно используемым в применении к конструкциям и предложениям естественного языка. Правильно построенными формулами, а также грамматически правильными предложениями являются такие выражения, которые построены в соответствии с правилами; при этом ясно, что большое практическое значение имеет существование надежных средств различения правильно построенных последовательностей и неправильно построенных, или неграмматических, последовательностей, так как в противном случае язык теряет свою ценность как средство сообщения информации. В работе по автоматическому переводу проверка правильной построенности имеет первостепенное значение — она служит средством определения границ конструкции, которая является частью другой конструкции, а также ценным способом проверки правильности общего анализа предложения. По всем этим соображениям некоторые из ранних работ по машинному переводу содержали попытки построения синтаксических исчислений, которые могли бы использоваться как основа машинных операций для проверки грамматической правильности.
Типичная в этом отношении работа Бар-Хиллела (В а г- Н і 1 1 е 1, 1953), основанная на некоторых идеях логики Айдукевича (A j d u k і e w і с z, 1935), беспристрастно характеризует все те усилия, которые были предприняты в этом направлении. Бар-Хиллел исходит из двух элементарных символов s и п (первые буквы английских слов sentence «предложение» и noun «имя существительное») и строит систему грамматических обозначений, которые позволяют затем использовать для проверки грамматической правильности очень простую операцию, похожую на арифметическую операцию сокращения дробей. Глаголам, которые сочетаются с существительным и дают в результате предложение, приписывается символ s/n. Например, последовательность, состоящая из имени существительного, за которым идет глагол, будет проанализирована как предложение, поскольку п, соответствующее имени существительному, сократится спв «знаменателе» обозначения, соответствующего глаголу, и останется только символ s. Бар-Хиллел определяет цепочку грамматических символов как «синтаксически связную», если существует такая последовательность операций сокращения, которая сводит всю цепочку к одному элементарному символу. Синтаксически связные цепочки представляют собой грамматически правильные предложения или правильно построенные части предложений.
Как разъясняет сам Бар-Хиллел, его модель страдает несколькими недостатками; в частности, первоначальная цепочка символов, обозначающих классы, может быть приписана фразе несколькими различными способами, в зависимости от того, как мы представим комбинацию элементов предложения друг с другом. Дальнейшие трудности (аналогичные тем, на которые наталкивается грамматика непосредственно составляющих в связи с прерванными составляющими) обусловлены тем, что сокращаться могут только символы, расположенные в цепочке непосредственно рядом. Ламбек (L a.mbek,
1958) , построивший синтаксическую модель, аналогичную модели Бар-Хиллела, предложил следующий способ преодоления первой из указанных трудностей: вначале в рассматриваемом предложении всеми возможными способами расставляются скобки; затем слову приписываются все возможные грамматические индексы; после этого вычисляется тип результирующего выражения — в соответствии с той группировкой элементов, которая указана скобками. Существование конечной процедуры такого рода может удовлетворить чистого математика или логика, который скажет, что проблема таким образом решена. Однако «решения» такого характера являются слишком сложными и общими по своей природе и не дают эффективных операций, которые могли бы практически использоваться в машинном переводе.
В противоположность теоретическим исследованиям синтаксических исчислений, работы, описывающие практические попытки решения проблем автоматического синтаксического анализа, начали появляться лишь недавно. Несколько групп машинного перевода объявили об успехе, достигнутом в распознавании синтаксических конструкций, меньших, чем предложение,— таких, как предложные или именные группы; обнаружение конструкции происходит обычно в результате поиска в ограниченном контексте. Подобного рода «микросинтаксические» методы синтаксического анализа обладают, однако, по крайней мере двумя недостатками. Первый состоит в том, что группировки, полученные в результате такого анализа, часто оказываются неправильными из-за ограничений после высокого уровня, природа которых не может быть установлена в результате такого просмотра предложения. Второй недостаток заключается в том, что методы микросинтаксического анализа не дают в ходе своего естественного развития никакого сколько-нибудь плодотворного подхода к анализу предложения в целом: ни увеличение просматриваемого контекста, ни простое повторение процесса не могут привести к решению проблемы.
Некоторые из лиц, занимающихся машинным переводом, осознав, что микросинтаксический подход в каком- то смысле заводит в тупик, попытались найти более эффективную процедуру анализа предложения. Эти ученые разрабатывают сейчас двухступенчатую систему анализа, в которой «макросинтаксические» операции (применяемые к предложению, уже обработанному «микросинтаксически») определяют более общие характеристики структуры предложения и исправляют ошибки, сделанные на более низком уровне анализа. Более желательной, с точки зрения как красоты, так и экономичности, была бы, однако, единая схема, охватывающая весь синтаксический анализ. Система предсказательного анализа, первоначально предложенная Родес (Rhodes, 1959 а, Ь) из Национального бюро стандартов, и усовершенствованная Шерри (S h е г- г у, 1960), Эттингером (О е t t і n g e r, 1960b) и другими исследователями в Гарвардском университете[164], по-видимому, не только удовлетворяет этому требованию, но обладает также и другими важными положительными качествами.
Поскольку детальное описание механики предсказательного анализа можно найти в указанной литературе, мы упомянем здесь лишь две характеристики этого процесса.
Очевидно, наиболее важное, с точки зрения машинной реализации, свойство предсказательного анализа состоит в том, что элементы предложения просматриваются здесь один за другим по очереди слева направо по одному разу. Для каждого слова в предложении необходимо определить, соответствует ли оно списку «предсказаний», который хранится в оперативной памяти. Предсказания — это, по существу, информация о различных синтаксических единицах всех структурных уровней, которые можно ожидать в данном положении. Некоторые предсказания, например предсказания о подлежащем и сказуемом, хранятся в оперативной памяти к началу анализа любого предложения. Остальные определяются в процессе анализа, в соответствии с синтаксической функцией, приписанной ранее пройденным словам. Оперативная память, содержащая список предсказаний, работает по принципу «последний внутрь — первый наружу», как и магазинная память, так что предсказания, добавленные непосредственно предшествующим словом, всегда будут проверяться первыми. Слову приписывается синтаксическая функция, определяемая первым из предсказаний, которым это слово может соответствовать. Например, личная форма глагола может быть главной частью сказуемого, и ей в качестве синтаксической функции будет приписано: «главная часть сказуемого»; после этого предсказание «главная часть сказуемого» будет снято из списка предсказаний, а взамен в список будет вставлено предсказание «объект» — в том падеже, которого требует данный глагол. Такой способ анализа, использующий все преимущества магазинной памяти, как оказалось, особенно хорош в случае «самовставленных» конструкций с прерванными составляющими.
Рассмотренная система имеет две возможности самопроверки. Прежде всего на особой ленте записываются все случаи, когда слово может удовлетворять более чем одному предсказанию. Поскольку в этих случаях слову приписывается только одна синтаксическая функция, то всегда имеется некоторая вероятность неправильного выбора. Наличие такой записи дает возможность пересмотреть информацию, если на более поздней стадии анализа будет обнаружено противоречие. Второй путь самопроверки: если данное слово не удовлетворяет ни одному из предсказаний, то это значит, что нарушена «синтаксическая связность» предложения — либо в результате неправильного анализа, либо из-за неправильности начальной информации, обусловленной, например, типографскими ошибками.
Экспериментальная проверка алгоритмов синтаксического анализа, составленных Эттингером и его сотрудниками для русского и английского языков, показывает, что предсказательный анализ является многообещающим аналитическим инструментом для самых разнообразных синтаксических систем естественных языков. Работа над русским языком доведена до такого уровня, что для большинства предложений научного текста правильный анализ получается уже после первого просмотра. Одна из главных особенностей этой системы состоит в том, что, несмотря на одновременный анализ явлений, принадлежащих разным уровням, ошибки на верхнем уровне, каковы бы ни были их источники, как правило, не препятствуют получению правильного результата на более низких уровнях. Так, даже если предложение в целом будет проанализировано неверно, его правильно построенные части, такие, как предложные группы, тем не менее часто получают правильное истолкование.
Последнее свойство предсказательного анализа может оказаться очень ценным при создании автоматических программирующих систем, которые осуществляют перевод с символического языка алгоритма на язык машинных операций. Если в такой системе будут использоваться приемы предсказательного, анализа, то в случае обнаружения первой ошибки программирующее устройство может не останавливаться, как это происходит обычно, а продолжать свою работу дальше, поскольку можно рассчитывать на то, что по крайней мере отдельные части алгоритма будут запрограммированы правильно. Эттингер сформулировал это свойство предсказательного анализа в виде «теоремы Д^», которая доказана им (О е t t і n - g e г, 1960) с полной строгостью для ряда алгорит- мов предсказательного перевода в формальных языках[165].
Последняя работа Шерри и Эттингера (Sherry and Oettinger, 1960) также посвящена изучению соотношения между естественными и искусственными языками; авторы создают новый формальный язык, моделирующий поведение естественного языка, подвергнутого предсказательному синтаксическому анализу. Определив последовательность абстрактных моделей, каждая из которых отражает большее число свойств естественного языка, чем предшествующая, авторы дают описание предсказательного анализа шаг за шагом, причем из этого описания вырисовываются не только его возможности в настоящее время, но и области, в которых этот анализ должен быть улучшен в ближайшем будущем.
4.