ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

СТРУКТУРНЫЕ МОДЕЛИ ЯЗЫКА

Теоретико-множественные модели. За последние не­сколько лет предложен также ряд структурных моделей описания и анализа языковых явлений. Беглый просмотр соответствующей литературы убеждает нас в том, что ученые основываются в большинстве случаев на современ­ной алгебре и математической логике.

Заимствуются не только понятия и методы анализа; во многих случаях все металингвистическое описание строго следует образцу дедуктивных математических систем[154]. Описание не­скольких исследований, содержащих применение теории множеств и родственных областей математической логики, поможет нам осветить характер достижений, имеющихся в этой области.

Харари и Пейпер (Н а г а г у and Paper, 1957) в своей статье описывают применение теории отношений для построения строгой математической схемы описания дистрибуции фонем. Авторы исходят из множества Р всех фонем языка и из отношения «непосредственно предшествовать» R; затем они описывают дистрибуцию данной фонемы на основе шести свойств отношений, в число которых входит рефлексивность, симметричность и транзитивность. В рамках этой системы типичное утверж­дение о дистрибуции фонем имеет следующую форму: «фонема х симметрична фонеме у»; это означает, что в рас­сматриваемом языке встречается как последователь­ность /ху/, так и /ух/. После этого на основную алгебра­ическую структуру модели накладываются дополнитель­ные количественные характеристики: вводится множество простых числовых индексов, которые определяются про­центом числа случаев, при которых дистрибуция фонемы обладает данным реляционным свойством[155]. Индексы, представленные в этой работе, очень напоминают те индексы, которые использовал в своих типологических исследованиях морфологии Гринберг (Greenberg, 1954); Харари и Пейпер и сами предполагают, что их модель может быть использована для типологического исследования дистрибуции фонем.

Каковы бы ни были успехи этого направления исследований в будущем, ут­верждение авторов о том, что их модель сделала понятие «свободы дистрибуции» более точным, достаточно хорошо подтверждается их собственными примерами. Спорным является только вопрос о том, в какой мере возможно распространение этой модели на я-местные последователь­ности без утраты простоты и ясности, свойственных дан­ному варианту.

Ряд алгебраических и логических представлений фоно­логических систем был предложен Унгехойером (U nge- h е и е г, 1959а) в его исследовании логических оснований теории различительных признаков Якобсона. Унгехойер рассматривает различительный признак как класс с за­данным дополнением; с другой стороны, он представляет различительный признак как переменную, принимающую два значения; на множестве таких переменных задаются булевы функции[156]. С помощью этих моделей он оказывается в состоянии выразить различие между «естественной» избыточностью звуковой системы и избыточностью фор­мальной системы, возникающей в результате анализа, при котором некоторые признаки обычно объявляются иррелевантными. Второй подход, описанный Унгехойе- ром, учитывает некоторые психологические соображения; здесь значимым признается лишь наличие положитель­ного значения признака. Продолжая идти по этому пути, он описывает «пространство» всех возможных фонем в тео­ретико-множественных терминах — как множество N всех подмножеств множества различительных признаков. Он утверждает, что множество N может быть описано мате­матически различными способами — например, как буле­ва алгебра, где признаки играют роль образующих. Унгехойер делает, впрочем, вполне уместное предупреж­дение о том, что в этих моделях не следует «читать» слиш­ком многое: любое применение высокоразвитой матема­тической теории требует более полного понимания сути описываемых явлений.

Построение грамматик для машинного перевода, осно­ванных на теоретико-множественных понятиях, описы­вается в недавней работе Кулагиной (Кулагина, 1958).

Неопределяемые понятия, такие, как «слово», отмеченная фраза, играют в формальных построениях Кулагиной роль аксиом. На этом фундаменте воз­двигается иерархия грамматических классов — она получается в результате точно определенной последова­тельности делений исходного множества на непересека- ющиеся подмножества. На самом низком уровне — на уровне разделения слов на «семейства» — члены данного подмножества могут подставляться один вместо другого в предложение, не меняя его грамматической правильности. Переходя постепенно к более высоким уровням, Кулагина вводит формальный аппарат, который достаточен для анализа некоторых простых грамматических понятий французского языка; Кулагина утверждает при этом, что для русского языка эта система недостаточна — в част­ности из-за того, что в любом падеже существительные образуют три различных семейства в единственном числе и только одно во множественном. Предложенная модель имеет ряд ограничений также в других отношениях; в частности, в системе взаимно исключающих друг друга грамматических категорий не предусматривается тех слу­чаев, при которых одна и та же форма может принадле­жать к более чем одной части речи — а такую возмож­ность, разумеется, нельзя игнорировать в машинном пере­воде.

Прежде чем переходить к синтаксическим моделям, уместно, по-видимому, упомянуть об усилиях, затра­ченных на построение «исчисления неколичественных функций» лингвистами глоссематической школы; это ис­числение представляет собой, по замыслу, новую алгебру, предназначенную для описания явлений, тесно связанных с человеком, таких, как язык. Алгебра глоссематиков, так, как она представлена Ульдаллем (Н j е 1 m s 1 е v and U 1 d а 1 1, 1957), во многом использует терминоло­гию и символику логической теории множеств, с той особенностью, что некоторые вполне обычные понятия — такие, как функция или отрицание,— определяются со­вершенно необычным образом. Более того, как указывал один из критиков (Ungeheuer, 1959 b), терминология глоссематики не всегда используется последовательно самими Ельмслевом и Ульдаллем, видимо, вследствие смешения понятий, которые в формальной логике обыч­но трактуются как различные.

Из анализа того, что на­писано глоссематиками к настоящему времени, следу­ет, по всей вероятности, что их алгебра -сильно выиграет от перехода на обычную систему логических понятий.

Модели синтеза предложения и описания синтаксиче­ской структуры. Вся остальная часть разд. 3 будет посвя­щена рассмотрению синтаксических моделей. Прежде всего мы рассмотрим описание синтаксической структуры и синтез предложения, а после этого перейдем к моделям, предназначенным для синтаксического анализа. Хотя исследования, которые описываются в этой второй части, значительно отличаются друг от друга по своим масшта­бам и общей направленности, все они подчинены одному и тому же замыслу — построить систематическую меха­ническую процедуру синтаксического анализа текстов, прежде всего в связи с машинным переводом. Первая группа в этом отношении менее однородна; тем не менее модель Ингве для порождения предложений (Y n g V е, I960) будет рассматриваться вместе с описательными по своему характеру моделями Хэрриса (Harris, 1957) и Хомского (Chomsky, 1957), поскольку все эти модели, без сомнения, имеют между собой много общего. Клас­сификация грамматик, произведенная Хомским, согласно которой все грамматики делятся на три типа — грамма­тики с конечным числом состояний, грамматики непос­редственно составляющих и трансформационные грамма­тики,— представляет для нас удобную схему изложения, хотя центр внимания здесь будет несколько иным.

Грамматика с конечным числом состояний (Chomsky,

1957) может быть охарактеризована как устройство с конечным числом внутренних состояний, которое порождает[157] предложения языка следующим образом: от начального состояния устройство переходит во вто­рое состояние, «производя» первое слово предложения; затем, производя по слову при каждом новом перехо­де, устройство переходит от одного состояния к дру­гому, пока не достигнет конечного состояния. За это время оно порождает законченное предложение. Та­кое устройство является особым видом марковского процесса с конечным числом состояний, и поэтому оно может быть представлено, как обычно представляют такие процессы,— «диаграммой состояний», в которой каждое состояние обозначается точкой или маленьким кружочком, а каждый дозволенный переход — стрелкой, связываю­щей соответствующие точки.

Диаграммы такого типа, обычно дополненные указанием вероятности каждого перехода, часто используются в теории информации для моделирования статистических свойств источника с конечным алфавитом символов[158].

В одной из своих ранних статей по машинному пере­воду Ингве (Y n g v е, 1955) предлагает использовать диаграммы состояний как возможное средство сжатия грамматики — средство, достаточно сильное для того, чтобы предложения целиком могли помещаться в память вычислительной машины. Как первый шаг в достижении этого сжатия предлагается связать переход от одного состояния к другому не со словом, а с частью речи. Дальнейшее упрощение может быть достигнуто за счет объединения отдельных путей в типовые синтаксические группы, далее, в типы простых предложений и, наконец, в типы фраз. Последние уровни этих многоступенчатых грамматик с конечным числом состояний до конца не разработаны, поэтому об их возможностях пока судить трудно. Хомский (С h о гп s к у, 1956, 1957) показал, од­нако, что грамматики с конечным числом состояний по самому своему существу неспособны отразить свойства некоторых конструкций английского языка, где возможна бесконечная рекурсия. Такие чисто теоретические аргу­менты, разумеется, не исключают возможности построения грамматики с конечным числом состояний для довольно сложных предложений, с которыми приходится иметь дело при машинном переводе; тем не менее это достаточно убедительное свидетельство того, что такая грамматика будет недопустимо сложной.

Вторая грамматическая модель, рассмотренная Хом­ским,—это модель структуры составляющих или граммати­ка непосредственно составляющих. В различных своих формах эта модель использовалась американскими лингви­стами в течение достаточно длительного периода[159]. Хом­ский формализовал эту теорию, определив грамматику непосредственно составляющих как операционную сис­тему (2, F)y состоящую из. конечного множества 2 на­чальных цепочек и конечного множества F правил, опре­деляющих структуру составляющих; правила имеют про­стую форму X-+Y.

Правила из F применяются к цепоч­кам по одному и производят новые цепочки; каждое пра­вило определяет замену одного символа одним или несколькими другими символами.

Во всех интересных случаях повторное применение правил развертывания, начиная с одной из начальных цепочек, дает такую последовательность цепочек, что к самой последней из них правила из F уже неприменимы. Такие неизменяемые цепочки, называемые терминаль­ными, являются предложениями языка, описываемого (2, Е)-грамматикой. Последовательность цепочек, полу­ченная в ходе порождения предложения, определяет структуру составляющих этого предложения, которая может быть представлена диаграммой вида дерева.

Грамматики непосредственно составляющих, как пока­зал Хомский, лишены тех недостатков, которые в первую очередь бросаются в глаза при рассмотрении грамматик с конечным числом состояний: такие грамматики способны отразить рекурсивные свойства естественных языков — для этого достаточно включить в F рекурсивные правила. Хомский показал, однако, что в английском языке име­ются типы конструкций — в частности, конструкции с прерванными составляющими,— для которых модель не­посредственно составляющих в лучшем случае даст гро­моздкое описание. Считая на этом основании, что на уровне составляющих никакой приемлемой модели пост­роить нельзя, Хомский (Chomsky, 1957, сноска 6, стр. 41—42) предлагает в качестве пути преодоления этих трудностей новый, более высокий уровень описания — уровень грамматических трансформаций. Однако прежде чем перейти к обсуждению трансформаций, рассмотрим модель автоматического синтеза предложения, построен­ную преимущественно на аппарате грамматики непосред­ственно составляющих.

Некоторые из последних работ Ингве посвящены иссле­дованию моделей устройства предложения, которые можно было бы использовать в качестве составной части прог­раммы синтеза при машинном переводе. Поскольку под­ход Ингве ориентирован на машинное использование модели, то в основе его лежит требование о том, что уст­ройство, порождающее предложения, должно иметь ко­нечную оперативную память. Используя грамматику не­непосредственно составляющих, описанную выше[160], меха­низм порождает предложение слева направо, причем пра­вила подстановки всегда применяются сначала к более ле­вому димволу в цепочке, чем к тому, который правее его; таким образом производится вся терминальная цепочка. Промежуточные результаты хранятся в оперативной памя­ти, где ввод и считывание возможны всегда только с одного конца, в соответствии с правилом о порядке развертывания символов. Этот тип устройства памяти,описанный в литера­туре как магазинная память (pushdown store), как было показано Эттингером (О е t t і n g e r, 1960b), имеет важ­ные применения в автоматическом синтаксическом ана­лизе; некоторые из этих применений будут рассмотрены ниже[161].

Один из интересных аспектов модели Ингве состоит в том, что предложение порождается вместе с эксплицит­ным описанием его разложения на составляющие. Это описание построено по принципу бесскобочной символики Лукасевича (Lukasiewicz, 1957): за каждым узлом дерева составляющих непосредственно следуют узлы, которые от него ответвляются. В ходе обсуждения аде­кватности этой модели Ингве показал непосредственную связь между структурой дерева предложения и объемом оперативной памяти, который необходим для ее порож­дения. На основе нумерации ветвей, отходящих от одного узла (нумерация производится справа налево), он опре­деляет «глубину» каждого из конечных (тупиковых) узлов: это сумма чисел, сопоставленных ветвям, которые ведут к этому узлу. Максимальная из длин конечных узлов называется глубиной предложения. Оказывается, что это как раз число «единиц объема» оперативной памяти, не­обходимое для порождения данного предложения.

Ингве показал, что глубина предложения зависит от направления ветвей в соответствующем ему дереве. Пред­ложения, у которых деревья ветвятся преимущественно влево, имеют относительно большую глубину; те, у кото­рых деревья ветвятся в основном вправо,— относительно малую. Эти два типа структур Ингве назвал соответст­венно регрессивным и прогрессивным. Из наблюдения над явлениями, связанными с глубиной предложений англий­ского языка, Ингве заключает, что в английском языке существуют верхний предел глубины предложения, и это довольно точно согласуется с данными Миллера (Miller, 1956) о приблизительном объеме непосредственной па­мяти у человека. Ингве указывает, кроме того, что в анг­лийском языке существуют многочисленные средства уменьшения глубины предложений при сохранении выра­зительных возможностей языка; к таким средствам относятся прерванные конструкции, вводное употребление it и т. д. Многие ненужные на первый взгляд сложности грамматики, как он утверждает, оказываются вполне целесообразными, так как использование разных конструк­ций в одном и том же значении является одним из средств ограничения глубины.

Ингве обобщил свои наблюдения над английским язы­ком в форме гипотезы о том, что различные языки будут вести себя по отношению к глубине одинаковым образом. Эта гипотеза, несомненно, имеет значение не только для лингвистики, но и для психологии. Если проверка гипо­тезы Ингве на других языках даст положительные резуль­таты, то этот механизм порождения предложений нужно будет принять в качестве модели порождения речи чело­веком — независимо от того, какова окажется роль этого механизма в машинном переводе.

Возвращаясь теперь к грамматическим трансформациям (это понятие было формализовано Хэррисом — Harris, 1952 — в связи с его работой по анализу текста), мы рас­смотрим самые последние описания трансформационного анализа в работе Хэрриса (Harris, 1957) и Хомского (Chomsky, 1956, 1957). Хотя в работах Хэрриса и Хомского, как они сами указывают, имеется большее число общих идей, исследования этих ученых развиваются сей­час в резко различных направлениях. Хэррис описывает грамматические трансформации через совместную встре­чаемость различных классов морфем в разных предложе­ниях. Он вводит трансформацию как средство соотне­сения друг с другом различных конструкций с одинаковыми классами совместной встречаемости. После того как вве­ден уровень трансформаций, нет оснований рассматри­вать все типы предложений независимо друг от друга: предложения, в которых дистрибуция контекстных клас­сов такая же, что и в ранее рассмотренных предложениях, может считаться результатом трансформации последнего. Далее, сложные предложения и некоторые последова­тельности предложений часто должны рассматриваться как результат соединения одного предложения с результа­том трансформации другого предложения.

Развивая более формальную часть своей грамматичес­кой теории трансформаций, Хомский и Хэррис сходятся на том, что в языке имеется так называемое ядро. Ядро состоит из элементарных предложений, из которых с по­мощью трансформаций получаются все остальные пред­ложения языка.

В трансформационной грамматике Хомского к яд­ру относятся простые предложения в утвердительной форме, не содержащие пассивных конструкций, то есть предложения, которые могут быть порождены с помощью грамматики непосредственно составляющих. Трансфор­мационная часть грамматики, которая составляет уро­вень, независимый от уровня непосредственно состав­ляющих, содержит правила, превращающие цепочку с некоторой заданной структурой составляющих в цепочку с другой структурой составляющих. Эти правила транс­формаций в результате применения их к простым пред­ложениям из ядра способны породить все оставшиеся предложения языка. Хомский подчеркивает, что транс­формационные грамматики по своей природе являются более сильным средством порождения предложений, чем грамматики непосредственно составляющих,— не только ввиду упрощения, связанного с различением двух уровней в синтаксическом описании[162], но и вследствие фундамен­тального различия этих уровней: символы данной цепочки содержат всю информацию, необходимую для определения того, какие из правил грамматики непосредственно со­ставляющих могут быть к ней применены; между тем, для определения применимости трансформации к данной це­почке может потребоваться информация о предыдущих этапах вывода этой цепочки, например информация о том, принадлежит ли эта цепочка к типу NP (именная группа) и может ли она подвергаться трансформациям, которые являются законными для именных групп[163].

Как утверждает Хомский, трансформационные грам­матики не только дают более простой и более мощ­ный аппарат описания синтаксиса естественных язы­ков, но обладают и другими достоинствами. К таким достоинствам относится, например, то, что двусмыс­ленность выражений типа the shooting of hunters («стрельба охотников» или «расстрел охотников») полу­чает в трансформационной грамматике простое объясне­ние: данная конструкция является результатом трансфор­мации двух различных ядерных предложений; в одном hunters является подлежащим, во втором — дополнением. Уорс (W о г t h, 1958) попытался недавно использовать это свойство трансформаций для классификации конструк­ций с творительным падежом в русском языке. В заключе­ние своего исследования Уорс выдвигает общий тезис о том, что трансформационный аппарат может не только оказаться полезным для установления более тонкой клас­сификации конструкций, но и послужить удобной схемой проверки обязательности того или иного типа определе­ния. Работа Уорса в силу своей чрезвычайно узкой направленности не может еще служить доказательством возможности построения полных трансформационных грамматик естественных языков. Успешность этой работы показывает, однако, что время для широкомасштабной проверки модели Хомского уже назрело. Как указывает Лиз (Lees, 1957), оценка модели Хомского в конечном счете должна определяться тем, каковы будут результаты ее применения к естественным языкам.

Модели синтаксического анализа. Как известно, искус­ственно построенные системы обозначений в логике и в математике обладают регулярностью и простотой синтак­сического построения, отсутствующей в естественном языке. Как подчеркивает Ингве (Y ngve, 1960), синтак­сическая система естественного языка может содержать большое количество различных средств для выражения одного и того же грамматического отношения (например, отношения подчинения), тогда как характерным свойством формально-логических языков является то, что они, как правило, пользуются в таких случаях каким-то едино­образным способом. Несмотря на огромные различия по степени сложности, между синтаксическими системами естественных и логических языков существует немалое сходство, и это позволяет утверждать, что логические языки моделируют свойства естественных языков, при­том нетривиальным образом. Эта тесная связь между есте­ственными и логическими языками имеет большое зна­чение для разработки автоматических методов синтак­сического анализа языка в связи с машинным переводом.

Главное понятие в синтаксической теории формально­логических языков — понятие правильно построенной формулы — тесно связано с понятием грамматической правильности, обычно используемым в применении к кон­струкциям и предложениям естественного языка. Пра­вильно построенными формулами, а также грамматически правильными предложениями являются такие выражения, которые построены в соответствии с правилами; при этом ясно, что большое практическое значение имеет существо­вание надежных средств различения правильно построен­ных последовательностей и неправильно построенных, или неграмматических, последовательностей, так как в против­ном случае язык теряет свою ценность как средство сооб­щения информации. В работе по автоматическому переводу проверка правильной построенности имеет первостепенное значение — она служит средством определения границ конструкции, которая является частью другой конструк­ции, а также ценным способом проверки правильности общего анализа предложения. По всем этим соображениям некоторые из ранних работ по машинному переводу со­держали попытки построения синтаксических исчислений, которые могли бы использоваться как основа машинных операций для проверки грамматической правильности.

Типичная в этом отношении работа Бар-Хиллела (В а г- Н і 1 1 е 1, 1953), основанная на некоторых идеях логики Айдукевича (A j d u k і e w і с z, 1935), беспристрастно характеризует все те усилия, которые были предприняты в этом направлении. Бар-Хиллел исходит из двух эле­ментарных символов s и п (первые буквы английских слов sentence «предложение» и noun «имя существительное») и строит систему грамматических обозначений, которые позволяют затем использовать для проверки грамматичес­кой правильности очень простую операцию, похожую на арифметическую операцию сокращения дробей. Глаголам, которые сочетаются с существительным и дают в резуль­тате предложение, приписывается символ s/n. Например, последовательность, состоящая из имени существитель­ного, за которым идет глагол, будет проанализирована как предложение, поскольку п, соответствующее имени суще­ствительному, сократится спв «знаменателе» обозначения, соответствующего глаголу, и останется только символ s. Бар-Хиллел определяет цепочку грамматических символов как «синтаксически связную», если существует такая по­следовательность операций сокращения, которая сводит всю цепочку к одному элементарному символу. Синтак­сически связные цепочки представляют собой граммати­чески правильные предложения или правильно построен­ные части предложений.

Как разъясняет сам Бар-Хиллел, его модель страдает несколькими недостатками; в частности, первоначальная цепочка символов, обозначающих классы, может быть приписана фразе несколькими различными способами, в зависимости от того, как мы представим комби­нацию элементов предложения друг с другом. Дальней­шие трудности (аналогичные тем, на которые наталкива­ется грамматика непосредственно составляющих в связи с прерванными составляющими) обусловлены тем, что сокращаться могут только символы, расположенные в цепочке непосредственно рядом. Ламбек (L a.mbek,

1958) , построивший синтаксическую модель, аналогичную модели Бар-Хиллела, предложил следующий способ пре­одоления первой из указанных трудностей: вначале в рассматриваемом предложении всеми возможными спосо­бами расставляются скобки; затем слову приписываются все возможные грамматические индексы; после этого вычисляется тип результирующего выражения — в соот­ветствии с той группировкой элементов, которая указана скобками. Существование конечной процедуры такого рода может удовлетворить чистого математика или логика, который скажет, что проблема таким образом решена. Од­нако «решения» такого характера являются слишком сложными и общими по своей природе и не дают эффектив­ных операций, которые могли бы практически исполь­зоваться в машинном переводе.

В противоположность теоретическим исследованиям синтаксических исчислений, работы, описывающие прак­тические попытки решения проблем автоматического син­таксического анализа, начали появляться лишь недавно. Несколько групп машинного перевода объявили об успехе, достигнутом в распознавании синтаксических конструк­ций, меньших, чем предложение,— таких, как предлож­ные или именные группы; обнаружение конструкции про­исходит обычно в результате поиска в ограниченном кон­тексте. Подобного рода «микросинтаксические» методы синтаксического анализа обладают, однако, по крайней мере двумя недостатками. Первый состоит в том, что группировки, полученные в результате такого анализа, часто оказываются неправильными из-за ограничений после высокого уровня, природа которых не может быть установлена в результате такого просмотра предложе­ния. Второй недостаток заключается в том, что методы микросинтаксического анализа не дают в ходе своего естественного развития никакого сколько-нибудь плодо­творного подхода к анализу предложения в целом: ни уве­личение просматриваемого контекста, ни простое повторе­ние процесса не могут привести к решению проблемы.

Некоторые из лиц, занимающихся машинным перево­дом, осознав, что микросинтаксический подход в каком- то смысле заводит в тупик, попытались найти более эффек­тивную процедуру анализа предложения. Эти ученые раз­рабатывают сейчас двухступенчатую систему анализа, в которой «макросинтаксические» операции (применяемые к предложению, уже обработанному «микросинтаксичес­ки») определяют более общие характеристики структуры предложения и исправляют ошибки, сделанные на более низком уровне анализа. Более желательной, с точки зре­ния как красоты, так и экономичности, была бы, однако, единая схема, охватывающая весь синтаксический анализ. Система предсказательного анализа, первоначально пред­ложенная Родес (Rhodes, 1959 а, Ь) из Национального бюро стандартов, и усовершенствованная Шерри (S h е г- г у, 1960), Эттингером (О е t t і n g e r, 1960b) и другими исследователями в Гарвардском университете[164], по-ви­димому, не только удовлетворяет этому требованию, но обладает также и другими важными положительными качествами.

Поскольку детальное описание механики предсказа­тельного анализа можно найти в указанной литературе, мы упомянем здесь лишь две характеристики этого про­цесса.

Очевидно, наиболее важное, с точки зрения машин­ной реализации, свойство предсказательного анализа состоит в том, что элементы предложения просматрива­ются здесь один за другим по очереди слева направо по одному разу. Для каждого слова в предложении необходимо определить, соответствует ли оно списку «предсказаний», который хранится в оперативной памяти. Предсказания — это, по существу, информация о раз­личных синтаксических единицах всех структурных уровней, которые можно ожидать в данном положении. Некоторые предсказания, например предсказания о под­лежащем и сказуемом, хранятся в оперативной памяти к началу анализа любого предложения. Остальные опре­деляются в процессе анализа, в соответствии с синтак­сической функцией, приписанной ранее пройденным сло­вам. Оперативная память, содержащая список предсказа­ний, работает по принципу «последний внутрь — первый наружу», как и магазинная память, так что предсказания, добавленные непосредственно предшествующим словом, всегда будут проверяться первыми. Слову приписывается синтаксическая функция, определяемая первым из пред­сказаний, которым это слово может соответствовать. Например, личная форма глагола может быть главной частью сказуемого, и ей в качестве синтаксической функ­ции будет приписано: «главная часть сказуемого»; после этого предсказание «главная часть сказуемого» будет снято из списка предсказаний, а взамен в список будет вставлено предсказание «объект» — в том падеже, кото­рого требует данный глагол. Такой способ анализа, ис­пользующий все преимущества магазинной памяти, как оказалось, особенно хорош в случае «самовставленных» конструкций с прерванными составляющими.

Рассмотренная система имеет две возможности само­проверки. Прежде всего на особой ленте записываются все случаи, когда слово может удовлетворять более чем одному предсказанию. Поскольку в этих случаях слову приписывается только одна синтаксическая функция, то всегда имеется некоторая вероятность неправильного выбора. Наличие такой записи дает возможность пере­смотреть информацию, если на более поздней стадии ана­лиза будет обнаружено противоречие. Второй путь само­проверки: если данное слово не удовлетворяет ни одному из предсказаний, то это значит, что нарушена «синтак­сическая связность» предложения — либо в результате неправильного анализа, либо из-за неправильности на­чальной информации, обусловленной, например, типо­графскими ошибками.

Экспериментальная проверка алгоритмов синтакси­ческого анализа, составленных Эттингером и его сотруд­никами для русского и английского языков, показывает, что предсказательный анализ является многообещающим аналитическим инструментом для самых разнообразных синтаксических систем естественных языков. Работа над русским языком доведена до такого уровня, что для боль­шинства предложений научного текста правильный анализ получается уже после первого просмотра. Одна из главных особенностей этой системы состоит в том, что, несмотря на одновременный анализ явлений, принадлежащих раз­ным уровням, ошибки на верхнем уровне, каковы бы ни были их источники, как правило, не препятствуют полу­чению правильного результата на более низких уровнях. Так, даже если предложение в целом будет проанализи­ровано неверно, его правильно построенные части, такие, как предложные группы, тем не менее часто получают правильное истолкование.

Последнее свойство предсказательного анализа может оказаться очень ценным при создании автоматических программирующих систем, которые осуществляют перевод с символического языка алгоритма на язык машинных опе­раций. Если в такой системе будут использоваться прие­мы предсказательного, анализа, то в случае обнаружения первой ошибки программирующее устройство может не останавливаться, как это происходит обычно, а продол­жать свою работу дальше, поскольку можно рассчитывать на то, что по крайней мере отдельные части алгоритма будут запрограммированы правильно. Эттингер сформу­лировал это свойство предсказательного анализа в виде «теоремы Д^», которая доказана им (О е t t і n - g e г, 1960) с полной строгостью для ряда алгорит- мов предсказательного перевода в формальных язы­ках[165].

Последняя работа Шерри и Эттингера (Sherry and Oettinger, 1960) также посвящена изучению соот­ношения между естественными и искусственными язы­ками; авторы создают новый формальный язык, модели­рующий поведение естественного языка, подвергнутого предсказательному синтаксическому анализу. Определив последовательность абстрактных моделей, каждая из которых отражает большее число свойств естественного языка, чем предшествующая, авторы дают описание пред­сказательного анализа шаг за шагом, причем из этого описания вырисовываются не только его возможности в настоящее время, но и области, в которых этот анализ должен быть улучшен в ближайшем будущем.

4.

<< | >>
Источник: В. А. ЗВЕГИНЦЕВ. НОВОЕ В ЛИНГВИСТИКЕ Выпуск IV. ИЗДАТЕЛЬСТВО «ПРОГРЕСС» Москва 1965. 1965

Еще по теме СТРУКТУРНЫЕ МОДЕЛИ ЯЗЫКА: