СТАТИСТИЧЕСКИЕ МОДЕЛИ ЯЗЫКА
«Макролингвистические» модели. По-видимому, наиболее известной и широко обсуждаемой формулой статистической лингвистики является так называемый закон Ципфа (Z і р f, 1949): r-f=C[143].
Эта формула гласит, что если слова достаточно длинного текста упорядочить по рангам, то есть расположить в порядке убывающей частоты их встречаемости в этом тексте, так что наиболее частое слово будет иметь ранг г=1, следующее по частоте — ранг r=2, и т. д., то произведение ранга г на частоту / для любого слова в тексте будет равно приблизительно постоянному числу С, где С зависит от длины текста.Регулярность этого соотношения, проверенного Цип- фом на текстах, взятых из широкого круга языков, привлекала внимание большого числа исследователей, поскольку в этом соотношении пытались найти ключ к объяснению самых общих закономерностей языкового поведения. Сам Ципф интерпретировал свои данные как свидетельство в пользу существования фундаментального закона человеческого поведения — закона, который он назвал «принципом минимального усилия» по аналогии с принципом минимального действия в физике. Однако такое объяснение соотношения частоты и ранга не получило достаточного признания, поскольку расплывчатость предложенного принципа не давала возможности строить математические модели порождения текста, которые можно было бы оценить с точки зрения их соответствия наблюдаемым данным.
В прошедшее десятилетие появился целый ряд исследований, отталкивающихся от работы Мандельброта, в которых делались попытки «объяснить» соотношение частоты и ранга с помощью математических моделей, основанных на гипотезах, отличных от ципфовской. Мандельброт (Mandelbrot, 1957) изложил результаты своих исследований в этом направлении в большой теоретической работе о «макролингвистике». Эту дисциплину он определяет как новую область лингвистики, в задачи которой входит изучение (статистическими методами) «крупномасштабных» языковых явлений.
Роль макролингвистики по отношению к микролингвистике (грамматике) должна быть, по Мандельброту, аналогична роли термодинамики по отношению к механике индивидуальных молекул газа: описание на макроскопическом уровне хотя и не противоречит микроскопическому поведению, описываемому грамматикой или законами механики, но игнорирует некоторые детали поведения на этом нижнем уровне. Макроскопический подход термодинамики в силу своей упрощенности дает, естественно, лишь очень неполное описание поведения газов; однако он оказался чрезвычайно полезным, так как привел к формулировке количественных соотношений, которые практически невозможно было получить при наблюдении за движением отдельных молекул. Мандельброт предположил, что таким образом макролингвистика может стать инструментом описания грубых свойств больших совокупностей текста*, для которых полная, детальная грамматическая обработка может оказаться немыслимо громоздкой и сложной..При исследовании соотношений ранга и частоты с «макролингвистической» точки зрения Мандельброт предложил изменить исходную формулу Ципфа, чтобы приблизить ее к реально наблюдаемым данным; он ввел в нее два новых параметра р и В, получив то, что он назвал каноническим законом[144]: рг=Р(г+р)~в. Здесь г — это, как и ранее, ранг слова, рг — относительная частота слова с рангом г, а Р, р и В — константы данного текста; р дает поправку для слов низкого ранга, а —В (в формуле Ципфа —В равно —1) соответствует скорости убывания логарифма рг в зависимости от г.
Мандельброту удалось вывести канонический закон математически из двух различных теоретических моделей порождения текста. В соответствии с первой, простейшей, моделью предполагается, что слова текста порождаются буква за буквой с помощью марковского процесса[145] с конечным числом состояний, причем каждый символ, включая пробел между словами, характеризуется некоторой фиксированной вероятностью появления в тексте.
Если текст порождается вероятностной моделью такого типа, со случайным распределением пробела, то распределение частот слов в этом тексте в точности следует каноническому закону (при этом В больше единицы)[146]. Вторая модель Мандельброта была разработана на основе аналогии с термодинамикой. Математически определяется «наиболее вероятное состояние» текста, на который наложены два ограничения: при декодировании слова отделяются друг от друга пробелами, и цена оптимального декодирования (то есть цена декодирующей системы, при которой для декодирования наиболее часто встречающихся слов требуется минимальное число операций) фиксирована. Эти условия вызывают максимизацию энтропии (в смыслеШеннона)[147], связанную с распределением вероятностей слов, и опять-таки результатом является такое распределение частот слов, которое подчиняется каноническому закону, на этот раз без ограничения на величину В.
Из второй модели, которую Мандельброт явно предпочитает первой, он выводит несколько следствий; в частности, заключение о том, что слова являются основными единицами текста, а также и то, что теория информации чрезвычайно важна для лингвистики. Другие исследователи, изучающие ту же проблему, не соглашаются с Мандельбротом, уверяя, что для сильных допущений, требуемых моделью с максимизацией информации, нет достаточных оснований и что вытекающие отсюда заключения не являются обязательным следствием наблюдаемых данных. Миллер и Ньюман (Miller and Newman,
1958) привели особенно веские аргументы в пользу первой модели Мандельброта, указав, с одной стороны, что длинные последовательности букв, не прерываемые пробелом, менее вероятны, а с другой, что число различных длинных слов больше, чем коротких. Отсюда следует, что в достаточно длинном тексте размещение пробелов всегда будет по существу случайным[148].
Среди прочих моделей мы можем выделить модель Саймона (Si то п, 1955), который трактует формирование текста как вероятностный «процесс порождений» и из этого допущения выводит функцию распределения, связывающую число слов заданной частоты с частотой их появления в тексте.
Мандельброт (Mandelbrot,1959) показал, что в выводе Саймона обнаруживается круг, и что поэтому хотя и можно построить функцию, которая будет соответствовать наблюдаемым данным, но это не дает положительного ответа на вопрос о том, действительно ли имеет место что-либо вроде «процесса порождений». Белевич (В е 1 е v і t с h, 1959) и Сомерс (Somers, 1959) утверждают, что для ципфовского соотношения частоты и ранга достаточно допущения о том, что логарифм относительной частоты слов имеет нормальное распределение. С помощью приближений (рядом Тейлора первого и второго порядка) нормального распределения на ограниченном отрезке Белевич выводит сначала закон Ципфа, а затем канонический закон. Мандельброта. Белевич считает, что для объяснения нормального распределения не требуется никаких специальных допущений, хотя фактически он делает очень сильное допущение, утверждая, что логарифм вероятности может рассматриваться в статистической лингвистике как естественная переменная.
Поскольку различные статистические модели, в том числе очень простые модели со случайным размещением пробела, приводят к классическому соотношению частоты и ранга, описанному Ципфом и Мандельбротом, то распределение, которое имеет место в подавляющем большинстве длинных текстов, не должно нас удивлять. Скорее всего, регулярность распределения частоты и ранга в текстах сама по себе ни в какой мере не вскрывает сущности основных языковых процессов; по-видимому, проверка более сложных моделей, которые могут быть построены в будущем, должна производиться на основе других источников, в частности, с помощью психологических тестов. Все это не означает, что усилия, направленные на решение рассматриваемой проблемы, были затрачены впустую; установление того факта, что канонический закон весьма часто выполняется при В=1, наталкивает на мысль об использовании таких распределений в качестве единицы отсчета при измерении существенных отклонений в языковом поведении.
Мандельброт еще раньше предположил, что параметр В (собственно говоря, в форме l/В) может явиться полезной мерой эффективности словаря; это дает возможность использовать его для измерения умственных способностей и обнаружения некоторых патологических нарушений работы мозга.
Таким образом, оказывается, что- «макролингвистика» гораздо ближе к области, пограничной между лингвистикой и психологией, чем к области традиционной грамматики. Это вполне естественное следствие использования таких моделей, которые в соответствии со- своим определением не включают деталей, составляющих самое существо грамматического описания.Статистика стиля и установление авторства. Если в в работах, о которых мы говорили ранее, главное внимание обращается на сходство распределений частоты и ранга, то в других работах изучение статистики текста имеет прямо противоположную цель: здесь стремятся найти статистическую меру, которая наилучшим образом выражала бы различия в стиле у разных авторов[149]. Ученые этой группы пытались найти количественные критерии для решения таких проблем, как проблема установления авторства, относительная хронология работ одного и того же автора и описание литературного стиля вообще, видимо надеясь, что эти критерии могут привести к суждениям более объективным и обоснованным, чем те, которые были возможны ранее.
В обиходном употреблении термину «литературный стиль» могут придаваться различные значения; этот термин может обозначать и характеристику отдельных произведений одного писателя (или даже какой-то части произведения), и характеристику писателя и даже группы писателей или исторического периода. При описании стиля часто принимается во внимание как форма, так и содержание произведения; это описание может содержать анализ звуковой модели стихотворения и исследование расположения фактического материала в прозаическом произведении. Понятие столь расплывчатое и общее, разумеется; нельзя сразу «свести к математике», надеясь при этом получить хоть сколько-нибудь осмысленный результат. Что в ряде случаев удавалось сделать — так это выделить некоторую частную стилистическую особенность (почти всегда формальную) и выразить ее количественно — обычно через относительную частоту языковых форм какого-то одного типа[150].
Классическим примером подобного подхода является работа Юла (Yule, 1944) по статистике литературного словаря, которая выросла из его интереса к спору об авторстве сочинения «De imitatione Christi». Начав с изучения распределения частот имен существительных в указанной работе и в работах двух наиболее вероятных ее авторов, Юл столкнулся с рядом важнейших методологических проблем, которые заставили его значительно расширить первоначальный объем исследований. Работа Юла очень важна, так как в ней четко выделяются два основных момента: первый — огромные трудности, которые приходится преодолеть, чтобы установить объем выборки и обеспечить ее нейтральность; второй — необходимость нахождения таких статистических характеристик, которые были бы независимы от размера выборки; при несоблюдении этого условия результаты, полученные для текстов различной длины, нельзя сравнивать друг с другом. Основным достижением Юла, имеющим большое значение для решения последней из упомянутых проблем, является введение им «характеристики /С» — параметра, который, как он показывает экспериментально, не зависит от размера текста, если материал последнего однороден. Основной недостаток этой характеристики состоит в ее чрезмерной чувствительности к вариациям стиля в разных произведениях одного и того же автора; иногда чувствительность к вариациям стиля бывает столь же велика, как и чувствительность к различию между стилями разных авторов. Это свидетельствует, однако, лишь о том, что даже для одного и того же автора частные количественные характеристики распределения слов являются постоянными только в пределах группы произведений, объединенных единством темы. Как подчеркивает сам Юл, прежде чем целесообразность оценок типа характеристики К будет окончательно установлена, необходимо провести большое количество контрольных вычислений, базирующихся на новейших данных.
Юла критиковали за то, что он ограничил свои исследования только словарем (и, более того, только существительными), но он и сам полностью осознавал эти свои недостатки и скромно оценивал свою работу как начальное и еще далекое от совершенства исследование лишь одного из важных аспектов литературного стиля. Ограничение масштаба исследований играло скорее не отрицательную, а положительную роль, так как оно способствовало тщательному и добросовестному анализу всех возникавших проблем; книга Юла в целом служит примером преданного, ответственного отношения к науке, и только такое отношение является залогом дальнейших существенных достижений в этой области.
Отдельные разделы вышедших недавно книг Хердана (Н е г d а п, 1956, 1960) и Фукса (Fucks, 1955) также посвящены рассмотрению вопросов, связанных со статистикой литературного стиля. В своей первой книге Хердан вводит величину vm, очень близкую к «характеристике» К, не зависящую, однако, от допущения Юла о том, что распределение частот слов подчиняется закону Пуассона; более того, величина vm может быть описана просто как коэффициент вариации относительно среднего значения. Если не считать этого новшества, из которого Хердан делает весьма далеко идущие выводы, не имея на это достаточных оснований, то раздел о стилостатистике у Хердана в значительной степени является пересказом работы Юла. В соответствующем разделе второй книги Хердан вводит, однако, и некоторые оригинальные методики; в частности, показано использование отношений областей в диаграммах Лоренца для измерения концентрации словаря16. К сожалению, контрольные вычисления, связанные с этими оценками, аналогичные вычислениям Юла, в достаточно широком масштабе пока еще не были проведены.
Работа Фукса основана на совершенно ином подходе к статистике литературного стиля, чем работы Хердана или Юла, поскольку за основную единицу Фукс принимает не слово, а слог. В связи с этим возникает необходимость изучения распределения слогов в слове, а также распределения других метрических и слоговых моделей. В процессе изучения статистических характеристик метрики Фукс вводит интуитивно оправданную меру метрических ограничений — величину, которая изменяется от 0 в «абсолютной прозе» (absolute Prosa) до 1 в «абсолютно связанной речи» (absolut gebundene Rede). Правда, он не приводит примеров применения этой простой оценки, а вместо этого переходит к разработке сложного математического аппарата, в котором используются векторы в двенадцатимерном пространстве, представляющие двенадцать типов рассматриваемых им метрических единиц. Хотя намерение Фукса, очевидно, состояло в том, чтобы наметить возможные пути подхода к статистическому анализу стиля, его книга тем не менее вызывает ощущение перегруженности математической техникой, применимость которой именно в этой области должна быть показана стдельно. Система с п измерениями не может быть использована для точного установления авторства до тех пор, пока не будет получено доказательств адекватности хотя бы некоторых из этих п стилистических характеристик.
В области статистики литературного стиля предстоит еще очень много работы, так как придется попытаться найти новые оценки стиля, по возможности более постоянные, чем те, которые связаны со словарем. По-види- мому, очень многое могут дать исследования на синтаксическом уровне, включая статистическое исследование соотношения между сочинением и подчинением, исследование типов и глубины «самовставления»[151] в предложениях т. д.; эти аспекты литературного стиля никогда еще не подвергались изучению с количественной точки зрения. Важнейшей предпосылкой расширения масштабов исследования и превращения статистики стиля в более эффективное оружие анализа является участие в этой работе лингвистов — предпочтительно лингвистов, в какой-то мере владеющих статистическими методами. Статистика стиля — это такая область, где ничто не может заменить тщательной предварительной работы (как со стороны лингвистов, так и со стороны статистиков), которая должна быть проделана до начала подсчетов и тем более до формулирования каких бы то ни было выводов. Можно надеяться, что исследования, удовлетворяющие этим требованиям, перестанут в будущем быть исключением и в результате более тесного сотрудничества статистиков и лингвистов станут обязательными.
Теоретико-информационные модели. После того как вышли в свет основные математические работы Винера (Wiener, 1948) и Шеннона (Shannon, 1949), теория информации стала полем активной деятельности не только для специалистов по теории связи, но и для ученых целого ряда других областей [152]. В частности, лингвисты, психологи и инженеры пытались применить некоторые понятия и методы теории информации к решению лингвистических проблем. Особое внимание привлекла шенноновская мера энтропии (или «информации выбора») — величина, которая в сущности является средней статистической оценкой «неожиданности» знаков, производимых источником в данной системе связи. Измерение энтропии рассматривалось как возможное средство количественного описания языковых процессов и структуры языка.
Как много раз подчеркивалось в литературе, мера информации, используемая в теории информации, не имеет ничего общего со смысловым содержанием передаваемых сообщений, а относится исключительно к статистической структуре их формального представления. Это сразу же исключает возможность применения теории информации к изучению семантических проблем (хотя если вырвать термин «информация» из его точного математического контекста, то именно такая связь прежде всего приходит в голову). Черри (Cherry, 1957, стр. 177) подчеркнул, что рассмотрение поведения источника знаков в терминах шенноновской меры информации имеет силу лишь в случае статистически стационарного источника, то есть такого источника, для которого наблюдение частот его знаков за ограниченный период времени дает достаточно точные оценки его статистических параметров. По мнению Черри, в подавляющем большинстве областей коммуникации в человеческом обществе знаковое поведение не является стационарным, так что в строгом смысле слова математическая теорий здесь вообще не применима. Эту оговорку он делает только по отношению к языковому поведению отдельных индивидов, оставляя открытым вопрос о нормах поведения для групп. Хердан (Н е г d а п, 1956, гл. 9), с другой стороны, настаивает на том, что распределение вероятностей языковых единиц постоянно и что теория информации является поэтому надежным средством лингвистического исследования.
Какова бы ни была относительная ценность этих двух в значительной мере противоречащих друг другу точек зрения, энтропия распределения вероятностей фонем и букв подсчитана (и она оказалась в достаточной мере устойчивой); подсчитано также распределение длины слов с точки зрения числа слогов. В последнем случае Фукс (Fuck s,
1955) использовал меру энтропии по Шеннону как статистическую характеристику индивидуального стиля, никак не учитывая роли этого понятия в теории связи. Такое использование информации выбора само по себе вполне правомерно. Однако оно получает практическое применение только в том случае, если собраны достаточно полные статистические данные о рассматриваемом классе распределений.
Значительно больший интерес представляют те исследования, которые выходят за пределы чисто статистических приложений меры информации и используют в какой- то мере саму теорию. Особенно существенным для моделирования некоторых формальных свойств естественного языка явилось рассмотрение его как кода и применение к нему теоретико-информационного понятия избыточности. Коротко говоря, избыточность источника (и, соответственно, избыточность кода, используемого источником) определяется как R= 1 — Н/Нмакс, где Н есть действительная скорость передачи информации данного источника, а Нмакс — максимальная скорость, которая реализуется только в том случае, если знаки, порождаемые источником, являются статистически независимыми друг от друга и обладают равными вероятностями. Условие, при котором Н=Нмакс, то есть избыточность равна нулю, состоит, таким образом, в том, что знаки, порождаемые источником, не должны иметь иерархической структуры: в коде не должно быть предпочтительных последовательностей или комбинаций знаков. Код такого рода, хотя он и использует максимальным образом какой-то алфавит, обладает, однако, тем недостатком, что ошибки, возникающие при передаче сообщения, останутся незамеченными, поскольку все сообщения являются равновероятными. Между тем естественные языки с их предпочтительными и запрещенными комбинациями формальных единиц на нескольких структурных уровнях обладают относительно высокой степенью избыточности, что обеспечивает их эффективность как средства общения при неблагоприятных условиях.
Произведенные независимо друг от друга исследования Шеннона (Shannon, 1952), с одной стороны, и Миллера и Фридмана (Miller and Friedman, 1957) — с другой, включали проведение разного рода психологических тестов для оценки энтропии и избыточности письменного английского языка. Их подсчеты показывают, что избыточность английского языка на уровне букв составляет приблизительно 50%. Миллер и Фридман, которые проверяли способность испытуемых восстанавливать печатные тексты, подвергнутые искажениям разных типов и разных степеней, рассматривали также вопрос о том, каким образом можно производить компрессию (сжатие) письменного английского языка в целях экономии пропускной способности канала связи при их передаче. Они сделали вывод, что наилучшие результаты дает систематический пропуск гласных и пробелов между словами — вывод, представляющий определенный интерес для лингвистов (а именно для изучения систем письма и процессов фонетических изменений[153]).
Применение теории информации к устному языку производилось главным образом на основе анализа по различительным признакам, принципы которого разработаны Якобсоном и его сотрудниками. Поскольку предполагается, что различительные признаки являются по своей природе бинарными (Н а 1 1 е, 1957), использование бита— двоичной единицы информации — оказывается здесь особенно удобным. При анализе структуры фонологических систем число различительных признаков можно сопоставить с минимальным числом бинарных противопоставлений, которым должен обладать код для того, чтобы закодировать каждую фонему однозначным образом (ср. Cherry, Halle, Jakobson, 1953; этот подход рассматривается также у Белевича — Belevitch,
1956) . Продолжая работу в этом направлении, Гринберг, Осгуд и Сапорта (Greenberg, Osgood and S a- porta, 1954) предложили рассматривать простое соотношение этих двух величин как меру эффективности фонологической системы. Несколько иной подход к анализу по различительным признакам будет рассмотрен в разд. 3 в параграфе «Теоретико-множественные модели».
Количественные методы в историческом и сравнительном языкознании. Использование количественных методов в сравнительном и историческом языкознании, как указал Уотмоу (W hatmough, 1957), отнюдь не является чем-то совершенно новым. В индологии, например, имеется целая серия работ, начатая работой Арнольда (Arnold, 1905) о метрике Вед, где простые подсчеты частот являются средством определения относительной архаичности различных фрагментов «Ригведы». Однако средствам такого рода всегда уделялось относительно меньшее внимание. Между тем за последние несколько лет как лингвисты, так и антропологи проявили глубокий интерес к количественным методам измерения степени сходства между языками. Хотя было сделано несколько попыток (некоторые из них будут упомянуты ниже) установить количественную основу для типологического сравнения языков, в большинстве случаев«мера сходства» тщательно вычислялась лишь затем, чтобы использовать ее в качестве критерия генетической близости между языками одной семьи. Более сложные цели ставит перед собой то направление исследования генетических отношений, которое использует методы лексикостатистики, или «глоттохронологии», как она иногда называется. Здесь делается попытка не только представить отношения между членами данной семьи языков в форме родословного древа, но, кроме того, также датировать каждую из точек разветвления. Началом количественного подхода к установлению родства языков можно, по-видимому, считать работу Чека- новского (Czekanowsky, 1927), который пытался измерить степень близости родства индоевропейских языков на основе числа фонологических и морфологических признаков (из специально подобранного списка, включающего двадцать признаков), общих для рассматриваемой пары языков. Примерно на десять лет позже аналогичное исследование провели Крёбер и Кретьен (К г о е b е г and Chretien, 1937), которые использовали расширенный список, содержавший семьдесят четыре признака. Их метод включал использование формул корреляции и таблиц с четырьмя клетками, из которых одна клетка содержит признаки, общие для данной пары языков, другая — признаки, присутствующие в первом языке, но отсутствующие во втором, и т. д. Результаты, полученные Крёбером и Кретьеном с помощью применения самых различных формул корреляции, оказались весьма сходными и в целом подтверждали общепринятое мнение о генетических отношениях между индоевропейскими языками.
Авторы сообщили, однако, что, по их сведениям, германская группа языков оказывается ближе к балто-славян- ской, чем к итало-кельтской, и что греческий язык более тесно связан с санскритом, армянским и иранским языками, чем с италийскими и другими языками группы centum.
Позднее Эллегорд (Е 1 1 е g а г d, 1959) показал (как это, впрочем, обнаружил до того и сам Кретьен — Chretien, 1943), что большое число первоначальных оценок корреляции у Кретьена и Крёбера было статистически недостоверно. Эллегорд доказал, что во многих формулах Кретьена и Крёбера число признаков, присутствующих в обоих языках, и число признаков, отсутствующих в обоих языках, выступает в качестве симметричных переменных, что является потенциальным источником серьезных ошибок. Он предлагает формулу, в которую последняя из этих величин вообще не входит, и применяет ее к данным Росса (Ross, 1950) об индоевропейских корнях, а также к данным Крёбера и Кретьена. Несмотря на то что две серии результатов в основном соответствуют друг другу, Эллегорд все же находит расхождения, достаточные для того, чтобы утверждать, что никакая единая статистика не может оценить степени сходства между двумя языками в целом. Тем не менее он не отрицает возможности значительного прогресса в измерении сходства языков— при условии взаимно благоприятного развития лингвистической таксономии и статистических методов, разработанных в пределах некоторой заданной таксономической системы.
Количественный подход к типологии языков разрабатывался Мензератом и Мейером-Эпплером (М е n z е- r a t h and Meyer-Eppler, 1950), а также Гринбергом (Greenberg, 1954) — в обоих случаях на основе формальной структуры слов. Мензерат и Мейер-Эпплер предлагают следующие три критерия для классификации слов произвольного языка: число слогов в слове, число звуков в слове и формальный тип слова, определенный через допустимые сочетания гласных и согласных. После этого языки классифицируются с точки зрения распределения их словарного запаса по этим классам. Гринберг, основываясь на работе Сепира, развивает свою классификацию слов с точки зрения их морфологической структуры. Он вводит десять характеристик, отражающих относительную частоту определенных типов морфем. Эти характеристики являются показателями тенденций к аналитическому или синтетическому строю, к агглютинации, к преимущественному использованию префиксов или суффиксов и т. д. Хотя разработка общей таксономии языков все еще остается делом будущего, очевидно, однако, что количественные методы* аналогичные тем, о которых здесь идет речь, будут занимать в таких исследованиях очень видное место.
Подсчеты «глубины лингвистического времени», которые производятся в лексикостатистике, разработанной Сводешом (S w a d е s h, 1950) и усовершенствованной Лизом (Lees, 1953), основаны на весьма специфическом аспекте сходства между языками: для каждой пары языков устанавливается множество корневых морфем, соответствующих тщательно разработанному списку понятий; после этого подсчитывается число случаев, когда соответствующие друг другу морфемы двух данных языков являются родственными (это устанавливается сравнительным методом); определяется процент таких случаев от общего числа слов в списке. На основе этой величины оценивается время, прошедшее от того момента, когда два языка начали развиваться независимо, до того периода, к которому относятся рассматриваемые языки. Подсчет производится по формуле i = logC / 2log гу где і — время (или «глубина времени»), обычно измеряемое в тысячелетиях, С— процент пар, составленных из родственных морфем, и г — коэффициент сохранения, то есть процент пар, сохраняющихся за единицу времени.
Использование этой формулы основывается на ряде предварительных допущений (Lees, 1953). Первое из них состоит в том, что в каждом языке имеется множества основных корневых морфем, настолько устойчивое, что за такой большой период, как тысяча лет, лишь небольшая часть из них заменяется другими морфемами. Более того, предполагается, что некоторые из этих корневых морфем соответствуют универсальным понятиям, общим для всех языков; поэтому можно составить такой список понятий, что каждому из них в любом языке будет соответствовать корневая морфема. Иными словами, предполагается, что данный список может служить средством нахождения сравнимых между собой устойчивых словарных единиц различных языков. Второе допущение состоит в том, что скорость «отмирания морфем», то есть постепенной замены элементов этого исходного списка, остается неизменной в различные периоды и в различных языках. Наконец, последнее допущение состоит в том, что рассматриваемые языки все это время развивались совершенно независима друг от друга. Впрочем, Сводеш (Swadesh, 1955) попытался изменить формулу (по крайней мере символически) таким образом, чтобы она отражала различные степени взаимного влияния между языками. Для этого он ввел в формулу «фактор разделения» s.
Коэффициент сохранения г в формуле «глубины времени» был определен на материале индоевропейских языков, поскольку в этой семье языков время разделения языков во многих случаях известно довольно точно. Лиз подсчитал величину г для тринадцати пар индоевропейских языков, используя первый список Сводеша, состоящий примерно из двухсот понятий; он получил для г значение, равное примерно 80% на тысячелетие. Сводеш (S w а- d е s h, 1955), который применял свою формулу для решения проблемы генетического родства языков американских индейцев, отнесся к результатам Лиза несколько критически, так же, как, впрочем, и к своим собственным: результатам более ранних лет. В частности, он подчеркивает, что при установлении коэффициента сохранения необходима более тщательная общая проверка результатов, чем та, которую удалось обеспечить Лизу; он считает необходимым дальнейшее усовершенствование контрольного списка, который он доводит в этой работе до ста единиц. Сводеш выражает большие надежды на то, что, несмотря на все несовершенства лексикостатистики в ее современном состоянии, она будет в дальнейшем широко развиваться и превратится в «инструмент точного исследования» в сравнительно-историческом языкознании.
Критика лексикостатистического метода, представленного работами Сводеша и Лиза, шла по нескольким различным направлениям. Хойер (Н о і j е г, 1956) заявил, что список понятий, пригодный для всех языков, составить невозможно, поскольку универсальным понятиям в языке может соответствовать более чем одно слово. В подтверждение он приводит ряд примеров из языка навахо, показывая, что во всех случаях, когда имеется неоднозначное соответствие, мы можем в зависимости от того, как сделан выбор, констатировать либо сохранение, либо >трату морфемы и таким образом прийти к ошибочным заключениям. Крёбер (К г о е b е г, 1955) особенно критически относится к вычислениям «глубины времени» как к свидетельству генетической близости в тех случаях, когда общая часть в словаре двух языков составляет менее чем 10%, поскольку в этих случаях заимствования и случайные сходства лишь в небольшом числе слов могут очень существенно изменить все результаты. По этой причине он считает, что лексикостатистику целесообразнее применять для изучения заведомо родственных языков, чем для обнаружения отдаленного родства.
Одной из наиболее интересных работ в лексикостатис- тике, содержащих как критику, так и собственные исследования, является работа Арндта (Arndt, 1959) о германских языках. Арндт ставит перед собой сразу две цели: проверить пригодность методов лексикостатистики, а затем использовать эти методы для проверки нестатистических теорий, характеризующих исторические отношения между различными германскими языками. Его результаты во второй части довольно убедительно свидетельствуют против традиционного деления германских языков на три группы и дают основания для разделения германских языков на восточногерманские, северогерманские, германские языки Северного моря и языки внутренней части материка.
Несмотря на кажущуюся пригодность лексикостатистических методов для решения такого рода теоретических вопросов, Арндт находит достаточно свидетельств их несовершенства. Один из его главных аргументов состоит в том, что применение формулы Сводеша к современным языкам регулярно дает меньшую глубину времени, чем для соответствующих пар древних языков, причем исторически наиболее правдоподобные хронологические оценки получаются для наиболее древних языков. Он видит в этом свидетельство сильного взаимного влияния и конвергенции различных языков более позднего периода и поэтому считает, что всякое усреднение расходящихся друг с другом результатов должно быть отвергнуто (аналогичные наблюдения сделал Ри (R е а, 1958), который применял лексикостатистический метод к романским языкам и получил для момента разделения датировку от 800 до 1600 г. и. э. вместо действительной даты около 100 г. н.э.). В заключение своей работы Арндт поднимает ряд вопросов, касающихся использования контрольного списка, возможных колебаний коэффициента сохранения и возможного влияния возрастающей грамотности на стабильность словаря. Существование столь многих источников потенциальных ошибок делает, с его тачки зрения, весьма сомнительной достоверность глоттохронологических выводов в отношении тех языковых групп, для которых мы располагаем более ограниченными историческими и лингвистическими данными, чем в индоевропеистике.
Глисон (Gleason, 1959) предложил расширить понятие лексикостатистики, включив в него неглоттохронологические методы определения наиболее вероятных генетических отношений между членами языковых семей. Два предлагаемых им метода свободны от спорных допущений, о которых мы упоминали выше, поскольку они не претендуют на установление хронологии и не требуют обязательного использования списка, включающего только универсальные понятия. Первый метод, метод «противопоказаний», состоит в подсчете числа тех случаев, когда слова, соответствующие данному понятию, не являются родственными в данной паре языков, но для каждого из этих слов имеется родственное слово хотя бы в одном из языков данной группы. Главное допущение, лежащее в основе этого подхода, состоит в том, что всякое нарушение преемственности поведения (например, переход от одного слова к другому для обозначения одного и того же понятия) представляет собой исключительное явление и, таким образом, наиболее вероятной следует считать такую структуру родословного древа, в которой противопоказания минимальны.
Второй метод Глисона, использующий так называемый характеристический словарный индекс, основан на применении таблицы с двумя входами, где заглавиями как столбцов, так и строк являются названия языков изучаемой группы. Каждому множеству родственных слов, найденному для данного понятия (из некоторого списка), присваивается значение единица. Если слово является родственным в трех языках, то в каждую из клеток, определяемых пересечением соответствующих столбцов и строк, ставится число 1/3; если данное слово является общим для семи языков, то в каждую из клеток ставится цифра 1/7 и т. д. После того как процесс закончен, относительная величина сумм, содержащихся в каждой клетке, рассматривается как мера родства соответствующей пары языков.
Методы Глисона, которые можно использовать для проверки результатов, полученных при глоттохронологическом подходе, помимо того, что они привлекают своей непосредственностью, обладают тем дополнительным достоинством, что основную часть работы по подсчету и вычислению может производить человек, не имеющий никакого лингвистического образования, поскольку вся процедура здесь чисто механическая и вполне может быть запрограммирована для вычислительной машины. Тем самым весь процесс может быть значительно ускорен, что избавляет лингвиста от большей части утомительной черновой работы, давая ему возможность сосредоточиться на более поздних этапах процесса, которые требуют лингвистических знаний и интуиции.
Очень удачным оказалось то обстоятельство, что исследования по лексикостатистике, получившие широкое распространение, привлекли к себе внимание не только ученых, стремящихся к получению новых результатов, но и проницательных критиков. Использование вычислительных машин для выполнения громоздких операций по обработке данных будет иметь двойной эффект: с одной стороны, это освободит лингвистов для интенсивной работы над собственно лингвистическими проблемами, а с другой стороны, перспектива широких контрольных подсчетов (которые являются необходимой предпосылкой для точной оценки полученных результатов) станет менее устрашающей, чем прежде.
3.