ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

СТАТИСТИЧЕСКИЕ МОДЕЛИ ЯЗЫКА

«Макролингвистические» модели. По-видимому, наибо­лее известной и широко обсуждаемой формулой статисти­ческой лингвистики является так называемый закон Ципфа (Z і р f, 1949): r-f=C[143].

Эта формула гласит, что если сло­ва достаточно длинного текста упорядочить по рангам, то есть расположить в порядке убывающей частоты их встречаемости в этом тексте, так что наиболее частое сло­во будет иметь ранг г=1, следующее по частоте — ранг r=2, и т. д., то произведение ранга г на частоту / для лю­бого слова в тексте будет равно приблизительно посто­янному числу С, где С зависит от длины текста.

Регулярность этого соотношения, проверенного Цип- фом на текстах, взятых из широкого круга языков, при­влекала внимание большого числа исследователей, по­скольку в этом соотношении пытались найти ключ к объяснению самых общих закономерностей языкового поведения. Сам Ципф интерпретировал свои данные как свидетельство в пользу существования фундаменталь­ного закона человеческого поведения — закона, который он назвал «принципом минимального усилия» по аналогии с принципом минимального действия в физике. Однако такое объяснение соотношения частоты и ранга не полу­чило достаточного признания, поскольку расплывчатость предложенного принципа не давала возможности строить математические модели порождения текста, которые мож­но было бы оценить с точки зрения их соответствия наб­людаемым данным.

В прошедшее десятилетие появился целый ряд иссле­дований, отталкивающихся от работы Мандельброта, в которых делались попытки «объяснить» соотношение частоты и ранга с помощью математических моделей, осно­ванных на гипотезах, отличных от ципфовской. Мандель­брот (Mandelbrot, 1957) изложил результаты своих ис­следований в этом направлении в большой теоретической работе о «макролингвистике». Эту дисциплину он опреде­ляет как новую область лингвистики, в задачи которой входит изучение (статистическими методами) «крупномасш­табных» языковых явлений.

Роль макролингвистики по отношению к микролингвистике (грамматике) должна быть, по Мандельброту, аналогична роли термодинамики по отношению к механике индивидуальных молекул газа: описание на макроскопическом уровне хотя и не противо­речит микроскопическому поведению, описываемому грам­матикой или законами механики, но игнорирует некоторые детали поведения на этом нижнем уровне. Макроскопиче­ский подход термодинамики в силу своей упрощенности дает, естественно, лишь очень неполное описание пове­дения газов; однако он оказался чрезвычайно полез­ным, так как привел к формулировке количественных соотношений, которые практически невозможно было получить при наблюдении за движением отдельных мо­лекул. Мандельброт предположил, что таким образом макролингвистика может стать инструментом описания грубых свойств больших совокупностей текста*, для кото­рых полная, детальная грамматическая обработка может оказаться немыслимо громоздкой и сложной..

При исследовании соотношений ранга и частоты с «макролингвистической» точки зрения Мандельброт пред­ложил изменить исходную формулу Ципфа, чтобы приб­лизить ее к реально наблюдаемым данным; он ввел в нее два новых параметра р и В, получив то, что он назвал каноническим законом[144]: рг=Р(г+р)~в. Здесь г — это, как и ранее, ранг слова, рг — относительная частота слова с рангом г, а Р, р и В — константы данного текста; р дает поправку для слов низкого ранга, а —В (в формуле Ципфа —В равно —1) соответствует скорости убывания логарифма рг в зависимости от г.

Мандельброту удалось вывести канонический закон математически из двух различных теоретических моделей порождения текста. В соответствии с первой, простейшей, моделью предполагается, что слова текста порождаются буква за буквой с помощью марковского процесса[145] с ко­нечным числом состояний, причем каждый символ, вклю­чая пробел между словами, характеризуется некоторой фиксированной вероятностью появления в тексте.

Если текст порождается вероятностной моделью такого типа, со случайным распределением пробела, то распределение частот слов в этом тексте в точности следует канониче­скому закону (при этом В больше единицы)[146]. Вторая мо­дель Мандельброта была разработана на основе аналогии с термодинамикой. Математически определяется «наиболее вероятное состояние» текста, на который наложены два ограничения: при декодировании слова отделяются друг от друга пробелами, и цена оптимального декодирования (то есть цена декодирующей системы, при которой для декодирования наиболее часто встречающихся слов тре­буется минимальное число операций) фиксирована. Эти условия вызывают максимизацию энтропии (в смысле

Шеннона)[147], связанную с распределением вероятностей слов, и опять-таки результатом является такое распре­деление частот слов, которое подчиняется канониче­скому закону, на этот раз без ограничения на величину В.

Из второй модели, которую Мандельброт явно пред­почитает первой, он выводит несколько следствий; в част­ности, заключение о том, что слова являются основными единицами текста, а также и то, что теория информации чрезвычайно важна для лингвистики. Другие исследова­тели, изучающие ту же проблему, не соглашаются с Ман­дельбротом, уверяя, что для сильных допущений, требуе­мых моделью с максимизацией информации, нет доста­точных оснований и что вытекающие отсюда заключения не являются обязательным следствием наблюдаемых дан­ных. Миллер и Ньюман (Miller and Newman,

1958) привели особенно веские аргументы в пользу первой модели Мандельброта, указав, с одной стороны, что длин­ные последовательности букв, не прерываемые пробелом, менее вероятны, а с другой, что число различных длинных слов больше, чем коротких. Отсюда следует, что в доста­точно длинном тексте размещение пробелов всегда будет по существу случайным[148].

Среди прочих моделей мы можем выделить модель Саймона (Si то п, 1955), который трактует формирова­ние текста как вероятностный «процесс порождений» и из этого допущения выводит функцию распределения, свя­зывающую число слов заданной частоты с частотой их появления в тексте.

Мандельброт (Mandelbrot,

1959) показал, что в выводе Саймона обнаруживается круг, и что поэтому хотя и можно построить функцию, которая будет соответствовать наблюдаемым данным, но это не дает положительного ответа на вопрос о том, действительно ли имеет место что-либо вроде «процесса порождений». Белевич (В е 1 е v і t с h, 1959) и Сомерс (Somers, 1959) утверждают, что для ципфовского соот­ношения частоты и ранга достаточно допущения о том, что логарифм относительной частоты слов имеет нормаль­ное распределение. С помощью приближений (рядом Тейлора первого и второго порядка) нормального рас­пределения на ограниченном отрезке Белевич выводит сначала закон Ципфа, а затем канонический закон. Мандельброта. Белевич считает, что для объяснения нормального распределения не требуется никаких специальных допущений, хотя фактически он делает очень сильное допущение, утверждая, что логарифм вероятности может рассматриваться в статистической лингвистике как естественная переменная.

Поскольку различные статистические модели, в том числе очень простые модели со случайным размещением пробела, приводят к классическому соотношению частоты и ранга, описанному Ципфом и Мандельбротом, то рас­пределение, которое имеет место в подавляющем большин­стве длинных текстов, не должно нас удивлять. Скорее всего, регулярность распределения частоты и ранга в текстах сама по себе ни в какой мере не вскрывает сущ­ности основных языковых процессов; по-видимому, про­верка более сложных моделей, которые могут быть пост­роены в будущем, должна производиться на основе дру­гих источников, в частности, с помощью психологических тестов. Все это не означает, что усилия, направленные на решение рассматриваемой проблемы, были затрачены впустую; установление того факта, что канонический закон весьма часто выполняется при В=1, наталкивает на мысль об использовании таких распределений в качестве единицы отсчета при измерении существенных отклонений в языковом поведении.

Мандельброт еще раньше предположил, что параметр В (собственно говоря, в форме l/В) может явиться полез­ной мерой эффективности словаря; это дает возможность использовать его для измерения умственных способ­ностей и обнаружения некоторых патологических наруше­ний работы мозга.

Таким образом, оказывается, что- «макролингвистика» гораздо ближе к области, пограничной между лингвистикой и психологией, чем к области традици­онной грамматики. Это вполне естественное следствие использования таких моделей, которые в соответствии со- своим определением не включают деталей, составляющих самое существо грамматического описания.

Статистика стиля и установление авторства. Если в в работах, о которых мы говорили ранее, главное внимание обращается на сходство распределений частоты и ранга, то в других работах изучение статистики текста имеет прямо противоположную цель: здесь стремятся найти статис­тическую меру, которая наилучшим образом выражала бы различия в стиле у разных авторов[149]. Ученые этой груп­пы пытались найти количественные критерии для решения таких проблем, как проблема установления авторства, относительная хронология работ одного и того же автора и описание литературного стиля вообще, видимо надеясь, что эти критерии могут привести к суждениям более объек­тивным и обоснованным, чем те, которые были возможны ранее.

В обиходном употреблении термину «литературный стиль» могут придаваться различные значения; этот термин может обозначать и характеристику отдельных произве­дений одного писателя (или даже какой-то части произве­дения), и характеристику писателя и даже группы писа­телей или исторического периода. При описании стиля часто принимается во внимание как форма, так и содер­жание произведения; это описание может содержать анализ звуковой модели стихотворения и исследование рас­положения фактического материала в прозаическом про­изведении. Понятие столь расплывчатое и общее, разу­меется; нельзя сразу «свести к математике», надеясь при этом получить хоть сколько-нибудь осмысленный резуль­тат. Что в ряде случаев удавалось сделать — так это вы­делить некоторую частную стилистическую особенность (почти всегда формальную) и выразить ее количествен­но — обычно через относительную частоту языковых форм какого-то одного типа[150].

Классическим примером подобного подхода является работа Юла (Yule, 1944) по статистике литературного словаря, которая выросла из его интереса к спору об авторстве сочинения «De imitatione Christi». Начав с изучения распределения частот имен существительных в указанной работе и в работах двух наиболее вероятных ее авторов, Юл столкнулся с рядом важнейших методоло­гических проблем, которые заставили его значительно рас­ширить первоначальный объем исследований. Работа Юла очень важна, так как в ней четко выделяются два основных момента: первый — огромные трудности, которые прихо­дится преодолеть, чтобы установить объем выборки и обе­спечить ее нейтральность; второй — необходимость нахож­дения таких статистических характеристик, которые были бы независимы от размера выборки; при несоблюдении этого условия результаты, полученные для текстов раз­личной длины, нельзя сравнивать друг с другом. Основным достижением Юла, имеющим большое значение для реше­ния последней из упомянутых проблем, является введение им «характеристики /С» — параметра, который, как он показывает экспериментально, не зависит от размера текста, если материал последнего однороден. Основной недостаток этой характеристики состоит в ее чрезмерной чувствительности к вариациям стиля в разных произве­дениях одного и того же автора; иногда чувствитель­ность к вариациям стиля бывает столь же велика, как и чувствительность к различию между стилями разных авто­ров. Это свидетельствует, однако, лишь о том, что даже для одного и того же автора частные количественные характе­ристики распределения слов являются постоянными только в пределах группы произведений, объединенных единством темы. Как подчеркивает сам Юл, прежде чем целесообраз­ность оценок типа характеристики К будет окончательно установлена, необходимо провести большое количество контрольных вычислений, базирующихся на новейших данных.

Юла критиковали за то, что он ограничил свои исследо­вания только словарем (и, более того, только существи­тельными), но он и сам полностью осознавал эти свои недостатки и скромно оценивал свою работу как началь­ное и еще далекое от совершенства исследование лишь одного из важных аспектов литературного стиля. Огра­ничение масштаба исследований играло скорее не отри­цательную, а положительную роль, так как оно способ­ствовало тщательному и добросовестному анализу всех возникавших проблем; книга Юла в целом служит при­мером преданного, ответственного отношения к науке, и только такое отношение является залогом дальнейших существенных достижений в этой области.

Отдельные разделы вышедших недавно книг Хердана (Н е г d а п, 1956, 1960) и Фукса (Fucks, 1955) также посвящены рассмотрению вопросов, связанных со стати­стикой литературного стиля. В своей первой книге Хердан вводит величину vm, очень близкую к «характеристике» К, не зависящую, однако, от допущения Юла о том, что распределение частот слов подчиняется закону Пуассона; более того, величина vm может быть описана просто как коэффициент вариации относительно среднего значения. Если не считать этого новшества, из которого Хердан делает весьма далеко идущие выводы, не имея на это дос­таточных оснований, то раздел о стилостатистике у Хер­дана в значительной степени является пересказом работы Юла. В соответствующем разделе второй книги Хердан вводит, однако, и некоторые оригинальные методики; в частности, показано использование отношений областей в диаграммах Лоренца для измерения концентрации сло­варя16. К сожалению, контрольные вычисления, связан­ные с этими оценками, аналогичные вычислениям Юла, в достаточно широком масштабе пока еще не были про­ведены.

Работа Фукса основана на совершенно ином подходе к статистике литературного стиля, чем работы Хердана или Юла, поскольку за основную единицу Фукс принимает не слово, а слог. В связи с этим возникает необходимость изучения распределения слогов в слове, а также распреде­ления других метрических и слоговых моделей. В процессе изучения статистических характеристик метрики Фукс вводит интуитивно оправданную меру метрических огра­ничений — величину, которая изменяется от 0 в «абсо­лютной прозе» (absolute Prosa) до 1 в «абсолютно связан­ной речи» (absolut gebundene Rede). Правда, он не при­водит примеров применения этой простой оценки, а вместо этого переходит к разработке сложного математиче­ского аппарата, в котором используются векторы в две­надцатимерном пространстве, представляющие двенад­цать типов рассматриваемых им метрических единиц. Хотя намерение Фукса, очевидно, состояло в том, чтобы наметить возможные пути подхода к статистическому анализу стиля, его книга тем не менее вызывает ощущение перегруженности математической техникой, примени­мость которой именно в этой области должна быть пока­зана стдельно. Система с п измерениями не может быть использована для точного установления авторства до тех пор, пока не будет получено доказательств адекват­ности хотя бы некоторых из этих п стилистических харак­теристик.

В области статистики литературного стиля предстоит еще очень много работы, так как придется попытаться найти новые оценки стиля, по возможности более по­стоянные, чем те, которые связаны со словарем. По-види- мому, очень многое могут дать исследования на синтак­сическом уровне, включая статистическое исследование соотношения между сочинением и подчинением, исследо­вание типов и глубины «самовставления»[151] в предложениях т. д.; эти аспекты литературного стиля никогда еще не подвергались изучению с количественной точки зрения. Важнейшей предпосылкой расширения масштабов иссле­дования и превращения статистики стиля в более эффек­тивное оружие анализа является участие в этой работе лингвистов — предпочтительно лингвистов, в какой-то мере владеющих статистическими методами. Статистика стиля — это такая область, где ничто не может заменить тщательной предварительной работы (как со стороны линг­вистов, так и со стороны статистиков), которая должна быть проделана до начала подсчетов и тем более до формули­рования каких бы то ни было выводов. Можно надеяться, что исследования, удовлетворяющие этим требованиям, перестанут в будущем быть исключением и в результате более тесного сотрудничества статистиков и лингвистов станут обязательными.

Теоретико-информационные модели. После того как вышли в свет основные математические работы Винера (Wiener, 1948) и Шеннона (Shannon, 1949), тео­рия информации стала полем активной деятельности не только для специалистов по теории связи, но и для ученых целого ряда других областей [152]. В частности, линг­висты, психологи и инженеры пытались применить неко­торые понятия и методы теории информации к решению лингвистических проблем. Особое внимание привлекла шенноновская мера энтропии (или «информации выбо­ра») — величина, которая в сущности является средней статистической оценкой «неожиданности» знаков, произ­водимых источником в данной системе связи. Измерение энтропии рассматривалось как возможное средство коли­чественного описания языковых процессов и структуры языка.

Как много раз подчеркивалось в литературе, мера ин­формации, используемая в теории информации, не имеет ничего общего со смысловым содержанием передаваемых сообщений, а относится исключительно к статистической структуре их формального представления. Это сразу же исключает возможность применения теории информации к изучению семантических проблем (хотя если вырвать термин «информация» из его точного математического контекста, то именно такая связь прежде всего приходит в голову). Черри (Cherry, 1957, стр. 177) подчеркнул, что рассмотрение поведения источника знаков в терминах шенноновской меры информации имеет силу лишь в случае статистически стационарного источника, то есть такого источника, для которого наблюдение частот его знаков за ограниченный период времени дает достаточно точные оценки его статистических параметров. По мнению Черри, в подавляющем большинстве областей коммуникации в человеческом обществе знаковое поведение не является стационарным, так что в строгом смысле слова математиче­ская теорий здесь вообще не применима. Эту оговорку он делает только по отношению к языковому поведению от­дельных индивидов, оставляя открытым вопрос о нормах поведения для групп. Хердан (Н е г d а п, 1956, гл. 9), с другой стороны, настаивает на том, что распределение вероятностей языковых единиц постоянно и что теория информации является поэтому надежным средством лингвистического исследования.

Какова бы ни была относительная ценность этих двух в значительной мере противоречащих друг другу точек зрения, энтропия распределения вероятностей фонем и букв подсчитана (и она оказалась в достаточной мере устой­чивой); подсчитано также распределение длины слов с точки зрения числа слогов. В последнем случае Фукс (Fuck s,

1955) использовал меру энтропии по Шеннону как статисти­ческую характеристику индивидуального стиля, никак не учитывая роли этого понятия в теории связи. Такое использование информации выбора само по себе вполне правомерно. Однако оно получает практическое приме­нение только в том случае, если собраны достаточно полные статистические данные о рассматриваемом классе распределений.

Значительно больший интерес представляют те иссле­дования, которые выходят за пределы чисто статистиче­ских приложений меры информации и используют в какой- то мере саму теорию. Особенно существенным для моде­лирования некоторых формальных свойств естественного языка явилось рассмотрение его как кода и применение к нему теоретико-информационного понятия избыточности. Коротко говоря, избыточность источника (и, соответст­венно, избыточность кода, используемого источником) определяется как R= 1 — Н/Нмакс, где Н есть действитель­ная скорость передачи информации данного источника, а Нмакс — максимальная скорость, которая реализуется только в том случае, если знаки, порождаемые источником, являются статистически независимыми друг от друга и обладают равными вероятностями. Условие, при котором Н=Нмакс, то есть избыточность равна нулю, состоит, таким образом, в том, что знаки, порождаемые источником, не должны иметь иерархической структуры: в коде не должно быть предпочтительных последовательностей или комби­наций знаков. Код такого рода, хотя он и использует мак­симальным образом какой-то алфавит, обладает, однако, тем недостатком, что ошибки, возникающие при передаче сообщения, останутся незамеченными, поскольку все сообщения являются равновероятными. Между тем есте­ственные языки с их предпочтительными и запрещенными комбинациями формальных единиц на нескольких струк­турных уровнях обладают относительно высокой степенью избыточности, что обеспечивает их эффективность как средства общения при неблагоприятных условиях.

Произведенные независимо друг от друга исследования Шеннона (Shannon, 1952), с одной стороны, и Мил­лера и Фридмана (Miller and Friedman, 1957) — с другой, включали проведение разного рода психологи­ческих тестов для оценки энтропии и избыточности пись­менного английского языка. Их подсчеты показывают, что избыточность английского языка на уровне букв состав­ляет приблизительно 50%. Миллер и Фридман, которые проверяли способность испытуемых восстанавливать пе­чатные тексты, подвергнутые искажениям разных типов и разных степеней, рассматривали также вопрос о том, каким образом можно производить компрессию (сжатие) письменного английского языка в целях экономии про­пускной способности канала связи при их передаче. Они сделали вывод, что наилучшие результаты дает систе­матический пропуск гласных и пробелов между сло­вами — вывод, представляющий определенный интерес для лингвистов (а именно для изучения систем письма и процессов фонетических изменений[153]).

Применение теории информации к устному языку про­изводилось главным образом на основе анализа по раз­личительным признакам, принципы которого разработаны Якобсоном и его сотрудниками. Поскольку предпола­гается, что различительные признаки являются по своей природе бинарными (Н а 1 1 е, 1957), использование бита— двоичной единицы информации — оказывается здесь особенно удобным. При анализе структуры фонологиче­ских систем число различительных признаков можно сопоставить с минимальным числом бинарных противопос­тавлений, которым должен обладать код для того, чтобы закодировать каждую фонему однозначным образом (ср. Cherry, Halle, Jakobson, 1953; этот подход рассматривается также у Белевича — Belevitch,

1956) . Продолжая работу в этом направлении, Гринберг, Осгуд и Сапорта (Greenberg, Osgood and S a- porta, 1954) предложили рассматривать простое соот­ношение этих двух величин как меру эффективности фоно­логической системы. Несколько иной подход к анализу по различительным признакам будет рассмотрен в разд. 3 в параграфе «Теоретико-множественные модели».

Количественные методы в историческом и сравнитель­ном языкознании. Использование количественных методов в сравнительном и историческом языкознании, как ука­зал Уотмоу (W hatmough, 1957), отнюдь не явля­ется чем-то совершенно новым. В индологии, например, имеется целая серия работ, начатая работой Арнольда (Arnold, 1905) о метрике Вед, где простые подсчеты частот являются средством определения относительной архаичности различных фрагментов «Ригведы». Однако средствам такого рода всегда уделялось относительно меньшее внимание. Между тем за последние несколько лет как лингвисты, так и антропологи проявили глубокий интерес к количественным методам измерения степени сходства между языками. Хотя было сделано несколько попыток (некоторые из них будут упомянуты ниже) устано­вить количественную основу для типологического сравне­ния языков, в большинстве случаев«мера сходства» тщатель­но вычислялась лишь затем, чтобы использовать ее в каче­стве критерия генетической близости между языками од­ной семьи. Более сложные цели ставит перед собой то направление исследования генетических отношений, кото­рое использует методы лексикостатистики, или «глотто­хронологии», как она иногда называется. Здесь делается попытка не только представить отношения между чле­нами данной семьи языков в форме родословного древа, но, кроме того, также датировать каждую из точек разветв­ления. Началом количественного подхода к установлению родства языков можно, по-видимому, считать работу Чека- новского (Czekanowsky, 1927), который пытался измерить степень близости родства индоевропейских язы­ков на основе числа фонологических и морфологических признаков (из специально подобранного списка, включа­ющего двадцать признаков), общих для рассматриваемой пары языков. Примерно на десять лет позже аналогичное исследование провели Крёбер и Кретьен (К г о е b е г and Chretien, 1937), которые использовали расши­ренный список, содержавший семьдесят четыре признака. Их метод включал использование формул корреляции и таблиц с четырьмя клетками, из которых одна клетка со­держит признаки, общие для данной пары языков, дру­гая — признаки, присутствующие в первом языке, но отсутствующие во втором, и т. д. Результаты, полученные Крёбером и Кретьеном с помощью применения самых раз­личных формул корреляции, оказались весьма сходными и в целом подтверждали общепринятое мнение о генети­ческих отношениях между индоевропейскими языками.

Авторы сообщили, однако, что, по их сведениям, герман­ская группа языков оказывается ближе к балто-славян- ской, чем к итало-кельтской, и что греческий язык более тесно связан с санскритом, армянским и иранским язы­ками, чем с италийскими и другими языками группы centum.

Позднее Эллегорд (Е 1 1 е g а г d, 1959) показал (как это, впрочем, обнаружил до того и сам Кретьен — Chre­tien, 1943), что большое число первоначальных оценок корреляции у Кретьена и Крёбера было статистически недостоверно. Эллегорд доказал, что во многих формулах Кретьена и Крёбера число признаков, присутствующих в обоих языках, и число признаков, отсутствующих в обоих языках, выступает в качестве симметричных пере­менных, что является потенциальным источником серьез­ных ошибок. Он предлагает формулу, в которую послед­няя из этих величин вообще не входит, и применяет ее к данным Росса (Ross, 1950) об индоевропейских корнях, а также к данным Крёбера и Кретьена. Несмотря на то что две серии результатов в основном соответствуют друг другу, Эллегорд все же находит расхождения, доста­точные для того, чтобы утверждать, что никакая единая статистика не может оценить степени сходства между двумя языками в целом. Тем не менее он не отрицает возможности значительного прогресса в измерении сходства языков— при условии взаимно благоприятного развития лингвис­тической таксономии и статистических методов, разрабо­танных в пределах некоторой заданной таксономической системы.

Количественный подход к типологии языков разраба­тывался Мензератом и Мейером-Эпплером (М е n z е- r a t h and Meyer-Eppler, 1950), а также Гринбер­гом (Greenberg, 1954) — в обоих случаях на основе фор­мальной структуры слов. Мензерат и Мейер-Эпплер пред­лагают следующие три критерия для классификации слов произвольного языка: число слогов в слове, число звуков в слове и формальный тип слова, определенный через до­пустимые сочетания гласных и согласных. После этого языки классифицируются с точки зрения распределения их словарного запаса по этим классам. Гринберг, основываясь на работе Сепира, развивает свою классификацию слов с точки зрения их морфологической структуры. Он вводит де­сять характеристик, отражающих относительную частоту определенных типов морфем. Эти характеристики являются показателями тенденций к аналитическому или синтети­ческому строю, к агглютинации, к преимущественному ис­пользованию префиксов или суффиксов и т. д. Хотя раз­работка общей таксономии языков все еще остается делом будущего, очевидно, однако, что количественные методы* аналогичные тем, о которых здесь идет речь, будут зани­мать в таких исследованиях очень видное место.

Подсчеты «глубины лингвистического времени», кото­рые производятся в лексикостатистике, разработанной Сводешом (S w a d е s h, 1950) и усовершенствованной Лизом (Lees, 1953), основаны на весьма специфическом аспекте сходства между языками: для каждой пары языков устанавливается множество корневых морфем, соответ­ствующих тщательно разработанному списку понятий; после этого подсчитывается число случаев, когда соответ­ствующие друг другу морфемы двух данных языков явля­ются родственными (это устанавливается сравнительным методом); определяется процент таких случаев от общего числа слов в списке. На основе этой величины оценивается время, прошедшее от того момента, когда два языка нача­ли развиваться независимо, до того периода, к которому относятся рассматриваемые языки. Подсчет производится по формуле i = logC / 2log гу где і — время (или «глу­бина времени»), обычно измеряемое в тысячелетиях, С— процент пар, составленных из родственных морфем, и г — коэффициент сохранения, то есть процент пар, со­храняющихся за единицу времени.

Использование этой формулы основывается на ряде предварительных допущений (Lees, 1953). Первое из них состоит в том, что в каждом языке имеется множества основных корневых морфем, настолько устойчивое, что за такой большой период, как тысяча лет, лишь небольшая часть из них заменяется другими морфемами. Более того, предполагается, что некоторые из этих корневых морфем соответствуют универсальным понятиям, общим для всех языков; поэтому можно составить такой список понятий, что каждому из них в любом языке будет соответствовать корневая морфема. Иными словами, предполагается, что данный список может служить средством нахождения сравнимых между собой устойчивых словарных единиц различных языков. Второе допущение состоит в том, что скорость «отмирания морфем», то есть постепенной замены элементов этого исходного списка, остается неизменной в различные периоды и в различных языках. Наконец, последнее допущение состоит в том, что рассматриваемые языки все это время развивались совершенно независима друг от друга. Впрочем, Сводеш (Swadesh, 1955) попы­тался изменить формулу (по крайней мере символиче­ски) таким образом, чтобы она отражала различные сте­пени взаимного влияния между языками. Для этого он ввел в формулу «фактор разделения» s.

Коэффициент сохранения г в формуле «глубины време­ни» был определен на материале индоевропейских языков, поскольку в этой семье языков время разделения языков во многих случаях известно довольно точно. Лиз подсчи­тал величину г для тринадцати пар индоевропейских язы­ков, используя первый список Сводеша, состоящий при­мерно из двухсот понятий; он получил для г значение, равное примерно 80% на тысячелетие. Сводеш (S w а- d е s h, 1955), который применял свою формулу для реше­ния проблемы генетического родства языков американ­ских индейцев, отнесся к результатам Лиза несколько критически, так же, как, впрочем, и к своим собственным: результатам более ранних лет. В частности, он подчер­кивает, что при установлении коэффициента сохранения необходима более тщательная общая проверка результа­тов, чем та, которую удалось обеспечить Лизу; он считает необходимым дальнейшее усовершенствование контроль­ного списка, который он доводит в этой работе до ста еди­ниц. Сводеш выражает большие надежды на то, что, не­смотря на все несовершенства лексикостатистики в ее современном состоянии, она будет в дальнейшем широко развиваться и превратится в «инструмент точного исследования» в сравнительно-историческом языко­знании.

Критика лексикостатистического метода, представлен­ного работами Сводеша и Лиза, шла по нескольким раз­личным направлениям. Хойер (Н о і j е г, 1956) заявил, что список понятий, пригодный для всех языков, составить невозможно, поскольку универсальным понятиям в языке может соответствовать более чем одно слово. В подтверж­дение он приводит ряд примеров из языка навахо, пока­зывая, что во всех случаях, когда имеется неоднозначное соответствие, мы можем в зависимости от того, как сделан выбор, констатировать либо сохранение, либо >трату морфемы и таким образом прийти к ошибочным заклю­чениям. Крёбер (К г о е b е г, 1955) особенно критически относится к вычислениям «глубины времени» как к сви­детельству генетической близости в тех случаях, когда общая часть в словаре двух языков составляет менее чем 10%, поскольку в этих случаях заимствования и случай­ные сходства лишь в небольшом числе слов могут очень существенно изменить все результаты. По этой при­чине он считает, что лексикостатистику целесообразнее применять для изучения заведомо родственных язы­ков, чем для обнаружения отдаленного родства.

Одной из наиболее интересных работ в лексикостатис- тике, содержащих как критику, так и собственные иссле­дования, является работа Арндта (Arndt, 1959) о гер­манских языках. Арндт ставит перед собой сразу две цели: проверить пригодность методов лексикостатистики, а затем использовать эти методы для проверки нестатис­тических теорий, характеризующих исторические отно­шения между различными германскими языками. Его результаты во второй части довольно убедительно свиде­тельствуют против традиционного деления германских языков на три группы и дают основания для разделения германских языков на восточногерманские, северогер­манские, германские языки Северного моря и языки внутренней части материка.

Несмотря на кажущуюся пригодность лексикостатис­тических методов для решения такого рода теоретических вопросов, Арндт находит достаточно свидетельств их несовершенства. Один из его главных аргументов состоит в том, что применение формулы Сводеша к современным языкам регулярно дает меньшую глубину времени, чем для соответствующих пар древних языков, причем исторически наиболее правдоподобные хронологические оценки полу­чаются для наиболее древних языков. Он видит в этом свидетельство сильного взаимного влияния и конвергенции различных языков более позднего периода и поэтому счи­тает, что всякое усреднение расходящихся друг с другом ре­зультатов должно быть отвергнуто (аналогичные наблю­дения сделал Ри (R е а, 1958), который применял лексико­статистический метод к романским языкам и получил для момента разделения датировку от 800 до 1600 г. и. э. вместо действительной даты около 100 г. н.э.). В заключе­ние своей работы Арндт поднимает ряд вопросов, касаю­щихся использования контрольного списка, возможных колебаний коэффициента сохранения и возможного влия­ния возрастающей грамотности на стабильность словаря. Существование столь многих источников потенциальных ошибок делает, с его тачки зрения, весьма сомнительной достоверность глоттохронологических выводов в отноше­нии тех языковых групп, для которых мы располагаем бо­лее ограниченными историческими и лингвистическими данными, чем в индоевропеистике.

Глисон (Gleason, 1959) предложил расширить по­нятие лексикостатистики, включив в него неглоттохроно­логические методы определения наиболее вероятных гене­тических отношений между членами языковых семей. Два предлагаемых им метода свободны от спорных допу­щений, о которых мы упоминали выше, поскольку они не претендуют на установление хронологии и не требуют обязательного использования списка, включающего толь­ко универсальные понятия. Первый метод, метод «противо­показаний», состоит в подсчете числа тех случаев, когда слова, соответствующие данному понятию, не являются родственными в данной паре языков, но для каждого из этих слов имеется родственное слово хотя бы в одном из языков данной группы. Главное допущение, лежащее в основе этого подхода, состоит в том, что всякое нарушение преемственности поведения (например, переход от одного слова к другому для обозначения одного и того же поня­тия) представляет собой исключительное явление и, та­ким образом, наиболее вероятной следует считать такую структуру родословного древа, в которой противопо­казания минимальны.

Второй метод Глисона, использующий так называемый характеристический словарный индекс, основан на при­менении таблицы с двумя входами, где заглавиями как столбцов, так и строк являются названия языков изуча­емой группы. Каждому множеству родственных слов, найденному для данного понятия (из некоторого списка), присваивается значение единица. Если слово является родственным в трех языках, то в каждую из клеток, опре­деляемых пересечением соответствующих столбцов и строк, ставится число 1/3; если данное слово является общим для семи языков, то в каждую из клеток ставится цифра 1/7 и т. д. После того как процесс закончен, относительная величина сумм, содержащихся в каждой клетке, рас­сматривается как мера родства соответствующей пары языков.

Методы Глисона, которые можно использовать для проверки результатов, полученных при глоттохронологи­ческом подходе, помимо того, что они привлекают своей непосредственностью, обладают тем дополнительным дос­тоинством, что основную часть работы по подсчету и вычис­лению может производить человек, не имеющий никакого лингвистического образования, поскольку вся процедура здесь чисто механическая и вполне может быть запро­граммирована для вычислительной машины. Тем самым весь процесс может быть значительно ускорен, что избав­ляет лингвиста от большей части утомительной черновой работы, давая ему возможность сосредоточиться на более поздних этапах процесса, которые требуют лингвистиче­ских знаний и интуиции.

Очень удачным оказалось то обстоятельство, что ис­следования по лексикостатистике, получившие широкое распространение, привлекли к себе внимание не только ученых, стремящихся к получению новых результатов, но и проницательных критиков. Использование вычисли­тельных машин для выполнения громоздких операций по обработке данных будет иметь двойной эффект: с одной стороны, это освободит лингвистов для интенсивной работы над собственно лингвистическими проблемами, а с другой стороны, перспектива широких контрольных подсчетов (которые являются необходимой предпосылкой для точ­ной оценки полученных результатов) станет менее устра­шающей, чем прежде.

3.

<< | >>
Источник: В. А. ЗВЕГИНЦЕВ. НОВОЕ В ЛИНГВИСТИКЕ Выпуск IV. ИЗДАТЕЛЬСТВО «ПРОГРЕСС» Москва 1965. 1965

Еще по теме СТАТИСТИЧЕСКИЕ МОДЕЛИ ЯЗЫКА: