Система признаков как логическое описание фонемы
В последующем изложении язык будет рассматриваться . как марковский процесс[203]. Фонемы считаются однозначно
определенными, но их порядок в последовательностях, которые составляют нашу выборку, может быть описан только статистически.
При выделении одной определенной фонемы из совокупности фонем данного языка каждый различительный признак можно рассматривать как вопрос, на который дается ответ «да» или «нет». Так, про некоторую фонему можно спросить: «Эта фонема — гласная?». Ответ: «Да» или: «Нет». Или: «Эта фонема — согласная?». Ответ: «Да» или: «Нет» и так далее до конца перечня признаков. Чтобы однозначно определить фонему русского языка, необходимо задать всего одиннадцать таких вопросов. Таблица А ил* люстрирует эти вопросы с ответами «да» (+) или «нет» (—); нуль (0) означает отсутствие признака.
Таким образом, здесь мы имеем дело с трехзначным делением; к данному вопросу мы еще вернемся ниже.
Простая иллюстрация такого логического описания дается на рис. 1. Во множестве из восьми «объектов» А, В ...Н каждый объект определяется по ответам «да» (+) или «нет» (—). Все множество объектов сначала делится пополам, и мы спрашиваем: находится ли искомый объект на правой половине (+) или нет (—)? Последовательные подразделения в конце концов приведут к идентификации объекта множества. Если имеется N объектов и если N—степень двойки, то число ответов «да» и «нет», необходимое для идентификации любого объекта в нашем множестве, равно log2N. Поэтому полная идентификация любого объекта задается цепочкой плюсов и минусов; так, например, объект G на рис. 1 (см. сл. стр.) определяется цепочкой (Н—|—).
Даже если N не есть степень двойки, величина log2N может быть все-таки использована как мера числа ответов, необходимых для идентификации любого элемента множе-
с определенными вероятностями, называется стохастическим процессом (stochastic process); частный случай этого процесса, когда вероятности зависят от предшествующих событий, называется марковским процессом или цепью Маркова».
В своей статье «Пример статистического исследования над текстом «Евгения Онегина», иллюстрирующий связь испытаний в цепи» («Известия Импер. Академии Наук», СПб., т. 7, 1913) А. А. Марков изучил дистрибуцию гласных и согласных букв в части знаменитой поэмы Пушкина и нашел, что условные вероятности букв не срответствуют случайной дрследова- телщюсти, но зависят от предшествующей буквы или букв.ства N. В таких случаях дробный результат[204] не следует, конечно, понимать как дробное число вопросов. Этот результат означает, что не все N элементов нашего множества обязательно требуют для своей идентификации одинакового числа ответов. Дробь получается в результате сведения к среднему числу.
АВ CD Е F G Н
— — — — | + + + + | ||||||
— — | + + | — — | + + | ||||
— | + | — | + | — | + | — | + |
Рис. 1.Логическая идентификация элементов множества из восьми объектов.
Величина log2 N условно выражается в так называемых битах; название этой единицы происходит от binary digit[205] (т. е. от выбора одного из двух ответов: «да» или «нет»).
На рис. 1 представлено последовательное деление каждый раз на две равные подгруппы; этот метод приводит к идентификации объекта при помощи наименьшего возможного числа ответов и, таким образом, к самой короткой цепочке плюсов и минусов. Деление на неравные подгруппы требует в среднем больше вопросов и ответов.
Применим теперь этот способ к списку из 42 русских фонем, перечисленных в таблице А. Но сначала рассмотрим чисто гипотетическое описание одной из 42 фонем, предположив, что это не фонема, а просто некоторый объект без всякого лингвистического значения.
Если бы фонемы были последовательно подразделены на группы, как это показано на рис. 1, для описания любого объекта потребовалось бы в среднем log242 вопросов, или 5,38 бита на каждую фонему. В нашем анализе языка нас интересуют, однако, не только вопросы логики, но и действительные факты; поэтому в таблице А ответы «да» или «нет» даются с учетом реального процесса речи.Зададимся следующим вопросом: можно ли придумать такую систему признаков, которая бы использовала в среднем только 5,38 вопросов на одну фонему и была бы в некотором смысле аналогична только что рассмотренному гипотетическому случаю? Это, по-видимому, возможно, но различительные признаки, используемые в действительности (см. табл. А), служат другим целям и тесно связаны
к | к, | g g, X с J 3 t t, d d, | s s, z z, | s n n, p p, | ||
Гласный [206] . . | ||||||
Согласный . . | +++++++++++++++++++++ | |||||
Компактный . | + + + + + + + Н---------------------- | ------ | --------------- | --------------- — | ||
Диффузный . | 0 | 0 | 00000000 | 0 0 | 0 0 0 0 | 0 0 0 0 0 |
Низкий . . . | + 4-4-4-4--------- — — | --- | -------- | ------ + + | ||
Носовой . . . | 0 | 0 | 000000-- | - | ---- | - b 4 |
Непрерывный | — | — | --+-++-- | --- | + + + + | — 00---- |
Звонкий . . . | — | — | + + 0 0 - + -- | + + | — + + | ----------- _ — |
Диезный . . . | — | + | — + 0 0 00 — + | - + | - + - + 0 - + - + | |
Резкий .... | 0 | 0 | 000 000- | — | 0000 + 0000 | |
Ударный . . . | 0 | 0 | 00000000 | 0 0 | 0 0 0 0 | 0 0 0 0 0 |
b Ь, | f f, v v, m m, iu u | >o te | •і і te a | г r, 1 1, j | ||
Гласный . . . | _ | -------------------- -++++++++++++- | ||||
Согласный . . | ++++++++-- | --- | ------- | + + + 4— | ||
Компактный . | — | — | ------------------------------- | ------ | --------- 1—l о о о о о | |
Диффузный . | 0 | 0 | 000000+ + | - | + +00 | 0 0 0 0 0 |
Низкий . . . | + + + + + + + + _!_ + .{— | ------- 0 0 | 0 0 0 0 0 | |||
Носовой . . . | — | — | ------------------ 1—h 0 0 | 0 0 | 0 0 0 0 | 0 0 0 0 0 |
Непрерывный | — | — | + + + 4--------------- 0 0 | 0 0 | 0 0 0 0 | -- + + 0 |
Звонкий . . . | + + | ------- + +------------- 0 0 | 0 0 | 0 0 0 0 | 0 0 0 0 0 | |
Диезный . . . | — | + | ----- 1------ r------- h 0 0 | 0 0 | 0 0 0 0 | —1--------- b о |
Резкий .... | 0 | 0 | 0000 0000 | 0 0 | 0 0 0 0 | 0 0 0 0 0 |
Ударный . . . | 0 | 0 | ooooooH— | 0 0 | + - + - | 0 0 0 0 0 |
Таблица А. Фонемы русского языка и их различительные признаки.
Знак (-{-) обозначает ответ «да», ^—) — отеєт «нет», (0) — отсутствие признака.
с физической стороной речи. На самом деле различительных признаков одиннадцать, т. е. сюда входят в среднем 5,62 лишних вопроса на одну фонему (11—5,38). Это означает, что используются избыточные, т. е. как бы лиш- ние плюсы и минусы. Однако признаки, предложенные ранее для лингвистического анализа, укладываются в логическую систему описания, хотя, по-видимому, это описание недостаточно экономно.
Можно ли увеличить эффективность нашего эмпирического описания, как-то упростив таблицу А?
Таблица А дает простейшее возможное описание сорока двух фонем в терминах данных одиннадцати различительных признаков.
Данная таблица и рис. 1 содержат ряд различий. Во- первых, вопросы, следующие один за другим в таблице А, имеют фонетическое значение в отличие от вопросов на рис. 1, где просто спрашивается «направо» или «налево». Ответ на первый вопрос (гласный: «да» или «нет»?) делит 42 фонемы не на две равные части (т. е. 21 плюс и 21 минус), а на 12 плюсов и 30 минусов; это объясняется реальным характером фонем русского языка. Второй вопрос (согласный: «да» или «нет»?) снова делит каждую из этих групп на неравные подгруппы и так далее.
Во-вторых, некоторые вопросы из таблицы А для определенных фонем вообще не нуждаются в ответе, так как и без этих вопросов происходит полная идентификация данных фонем.
В таблице А мы употребляем нуль, чтобы обозначить отсутствие признака, т. е. «возможен как плюс, так и минус». Например, фонема It/ представлена цепочкой
(—_j—о---------------- 0).--- Каждый нуль можно заменить
плюсом или минусом, и это ничего не изменит. При любой такой замене цепочка символов для фонемы Л/ остается единственной и не смешивается ни с одной другой цепочкой. Поскольку каждый нуль можно, таким образом, рассматривать как плюс или как минус, общее число вопросов на каждую фонему одиннадцать. Это и есть мера «информации», которая заключается в выборе говорящим какой- либо одной фонемы из 42, по крайней мере на основе изложенной здесь системы различительных признаков. Однако, как мы видели, действительная «информация» может быть выражена средним числом вопросов (битов) на фонему— 5,38; тогда 5,62 бита представляют собой избыточность, которая получается в результате замены нолей плюсами или минусами. (Нужно подчеркнуть, что до сих пор, говоря о мере «информации», мы основывались на предположении, что все 42 фонемы имеют равновероятную встречаемость и что они являются полностью независимыми единицами. Но так как язык имеет, конечно, намного более сложную структуру, наше понятие «информации» будет в дальнейшем уточнено.)
Термин «избыточность» не следует понимать как «расточительность». Избыточность — это внутреннее свойство речи, и более того — это свойство каждой системы связи; избыточность служит целям наиболее успешного функционирования системы. В частности, избыточность помогает слушателю устранить неясности, внесенные искажением сигнала или мешающими шумами. Например, признак назальности имеет значение /0/ для всех русских гласных. Если заменить нули на плюсы, новые символы не будут означать, что в русской речи гласные всегда назализуются; обычно этого не происходит, но, даже если это имеет место, назальность лишена фонематического значения. В некоторых случаях нуль стоит там, где подстановка на его место плюса или минуса может обозначать невозможную артикуляцию; но и здесь дело в том, что данная фонема идентифицируется без этого признака.
Если данные таблицы А могут быть перегруппированы так, что уничтожится необходимость употребления двусмысленного символа 0, то число вопросов, необходимых для идентификации любой фонемы, в среднем уменьшится. Таким образом, описание фонем в терминах данных различительных признаков будет менее избыточно.
3. Устранение двусмысленных нулевых знаков
Можно предположить, что, изменяя порядок вопросов мы сумеем устранить все нули в таблице А или по крайней мере переместить их на конец каждой цепочки знаков так, что их удастся опустить (при этом фонема идентифицируется цепочкой одних плюсов и минусов). Оказывается, однако, достигнуть этого путем простой перестановки вопросов невозможно.
Постановка вопроса изменится, если рассматривать таблицу символов (+,—, 0) в качестве кодовой таблицы для идентификации различных фонем. При такой точке зрения нет основания считать, что порядок следования признаков должен быть одинаковым для разных фонем. В самом деле, порядок вопросов в определенных случаях
может меняться в зависимости от ответов на предыдущие вопросы. Иначе говоря, необходимо несколько различных кодовых таблиц. Таблица В показывает результат такой перестройки кода.
В качестве примера рассмотрим идентификацию фонемы /'о/. Ответы на вопросы: гласный?, согласный?, компактный? — будут соответственно: Н—*—. Это показывает, что рассматриваемая фонема принадлежит к группе фонем /'и и 'о 'е 'і і/. Для последующих вопросов нужна новая кодовая таблица. Остальные вопросы, как мы видим из таблицы В, располагаются в следующем порядке: диффузный?, низкий?, ударный? Кодовые таблицы известны a priori и представляют независимую фонетическую структуру русского языка; они сами содержат в себе «информацию», которую несли нули в табл. А.
к к, g g, х с J з 'и и 'о 'е 'і і 'а а г г, 1 1, j
Гласный . . . Согласный . . Компактный . Низкий . . . Непрерывный Звонкий . . . Диезный . . . | і++і++ і++і+і і ++1 і і ++++ і+++і++ і+++ і + і і +++ і і + і +++ і і і | ++++++ | + + + + | + + + + + + + + | |||
Диффузный Низкий Ударный | + н------------ Ь + + -Ы---------- + - +- | + - | |||||
Диезный Непрерывный | - + - + - - + + |
11, | d d, | s s, z z, § | П П, p p, | b b, | l-t* < в 3 | |
Гласный . . . | __ | ______ | ||||
Согласный . . | ++++Н Н+++++++++++++++ | |||||
Компактный . | -- | -- | -------- | ------ | -- | -------- |
Низкий . . . | ||||||
Носовой . . . | -- | -- | ------- | + + — | -- | ---- ------ 1—h |
Диезный . . . | - + | - + | - 1------- h — | - 1------ h | - + | - 1------ 1------ h |
Непрерывный | -- | -- | + + + 4— | -- | -- | + + + + |
Звонкий . . . | -- | + + | ----- + + - | — — | + + | -- + + |
Резкий .... | -- | --- | + |
Таблица В. Фонемы русского языка, расположенные в таком порядке, который позволяет устранить двусмысленный нуль.
Процесс перекодирования можно рассматривать как трансформацию. Число знаков (битов), необходимых для идентификации каждой фонемы, теперь меньше, чем раньше, за счет исключения знака «нуль» из таблицы А. Хотя число необходимых для идентификации знаков различно для разных фонем, в среднем оно равно 6,5 битов на фонему,— величина, значительно меньшая, чем наша первоначальная (11 битов), и более близкая к теоретической величине в
5,38 бита. Таким образом, описание в терминах различительных признаков стало более эффективным.
4. Вероятности фонем
а) Индивидуальные частоты встречаемости
Следующий этап в нашем описании языка — это рассмотрение относительных частот встречаемости индивидуальных фонем.
Вычисленная предварительно «информация» в битах на фонему имеет гипотетическую минимальную величину
5,38 (log242). Это результат последовательного деления множества фонем каждый раз на две равные группы. Если же частоты встречаемости фонем неравны, необходимую среднюю величину (число битов на одну фонему) можно получить путем последовательного деления множества фонем каждый раз на две группы. При этом общая вероятность встречаемости фонем первой группы будет равна общей вероятности встречаемости фонем второй группы. Тогда среднее число вопросов, необходимых для идентификации одной фонемы (в битах на фонему), будет равно Hlf где
Н,=— Spjlogpi (1)
Суммирование идет по всем фонемам і (помните, что pj всегда меньше[207] 1).
Заметим, что Hj есть «математическое ожидание» для величины— log Pj.
5,81
5,95
5,96,
6,20
6,25
6.30
6.39 6,60 6,80
6.84
6.84 6,86 6,86
7.40
7.50 7,60 7,64 8,10 8,90
10.30
10.50
0,100
0,096
0,091
0,083
0,081
0,C80
0,075
0,067
0,062
0,061
0,061
0,058
0,058
0,044
0,043
0,039
0,038
0,029
0,018
0,008
0,008
9
4
6
4 8 9 8
5
7
8
5 8 8 9 6 8 8
7
6 8 7
1316
977
602
539
457
392
379
359
343
284
273
243
240
232
230
221
212
177
162
153
133
130
126
119
102
91
89
89
85
85
59
56
52
50
36
21
8
7
0,387
0,328
0,244
0,228
0,202
0,183
0,179
0,172
0,167
0,146
0,140
0,131
0,129
0,126
0,125
0,121
0,118
2,94
3,35
4,05
4,23
4,45
4,66
4,72
4,80
4,86
5.14
5.14 5,38 5,40 5,42 5,45 5,50 5,55
4
6
9
4 2 6
5 8
5
7
8
5 6 8 4 6 4
а
і
t
'a
j
n
lo
s
te
к
v
і
u
p
r
n,
1
s
m
с
t,
'и
r,
z
d,
b
x
g
V,
3
f
S,
s
m,
b,
P,
k,
z,
f,
g,
207 5,56 0,115
202 5,64 0,114
197 5,65 0,111
196 5,65 0,111
Таблица С.
a = фонема (і); 6 = pjxl04; с = —log2pj; d=^— pj log2 pj; e = число признаков в таблице В (і означает: «любая данная фонема»; pj означает: «вероятность данной фонемы»).
Относительные частоты встречаемости индивидуальных фонем русского языка подсчитаны с помощью метода, описанного в последних абзацах § 1; частоты даны в таблице С, и, основываясь на них, мы можем легко подсчитать по формуле (1) гипотетическую «информацию» Нх:
Н1==4,78 бита на фонему (2)
С другой стороны, зная вероятности р* индивидуальных фонем, мы можем подсчитать среднее число различительных признаков, т. е. двоичных выборов на фонему. Если Nt—это число различительных признаков, необходимых для идентификации і-той фонемы в табл. В, то среднее количестводвоичных выборов или различительных признаков на фонему, имеющее место в действительности, равно
£N^=5,79 признаков на фонему, (3)
Что можно сравнить с Идеальной величиной, найденной по формуле (2).
В своей недавней статье 10 Д. Хаффмен описал метод построения наиболее эффективного кода для множества независимых сообщений с известной дистрибуцией частоты встречаемости. В таком коде «среднее число кодовых единиц на сообщение доведено до минимума».
Если рассматривать фонемы нашего языка как независимые сообщения, то можно применить метод Хаффмена и подсчитать на основании данных в табл. С вероятностей число кодовых единиц, которые потребовались бы в оптимальном коде для идентификации каждой фонемы. Это число можно сравнить с тем числом различительных признаков, необходимых для идентификации каждой фонемы, которое дается в табл. В. Однако необходимо указать, что эти числа, строго говоря, не сравнимы: как констатировалось в §3, описание в терминах различительных признаков предполагает, что рассматриваемые единицы интерпретируются по-разному в зависимости от ответов, полученных на предыдущей стадии анализа, тогда как все единицы в коде Хаффмена имеют одну и ту же интерпретацию. В нижеследующей таблице мы сопоставляем число фонем, которые задаются данным числом единиц в оптимальном коде, с числом фонем, которые задаются тем же самым числом различительных признаков в табл. В[208].
ЧИСЛО ЕДИНИЦ или РАЗЛИЧИТЕЛЬНЫХ 2345678910
ПРИЗНАКОВ
В оптимальном Число коде 0 2211 13 83 1 2
фонем В действительности (в табл. В) 1 0 6 4 10 4 12 5 0
Из приведенной таблицы видно, что метод различи* тельных признаков, рассматриваемый нами пока просто как способ описания, оказывается весьма эффективным.
До сих пор мы рассматривали фонемы языка как независимые объекты. Но естественный процесс речи отнюдь не состоит в выборе цепочки независимых фонем; напротив, в конечном счете речь есть последовательность выборов, где каждый выбор частично обусловлен предшествующей (т. е. выбранной ранее) фонемой. Более точное описание естественного процесса речи основывается на утверждении, что фонемы выбираются группами. Таким образом, выполненный нами простой анализ нужно рассматривать как несколько искусственное, хотя и вполне эффективное описание языка в его простейшем аспекте.
Перед тем как закончить этот раздел, мы должны отметить несколько статистических фактов, взятых из таблицы С.
Вероятность встречаемости гласной=0,4190; плавной = 0,0737; фонемы/j/=0,0457; собственносогласной=0,4616п.
В нижеследующей таблице вероятности плюсов и минусов для каждого различительного признака были вычислены сложением вероятностей всех фонем, имеющих в таблице В плюс для этого признака, и сложением вероятностей всех фонем, имеющих минус. Таким образом, вероятность ответа «да» на вопрос «звонкий?» — это сумма вероятностей всех звонких фонем, т. е. lg—g,—з—d—d,—z—z, —b—b, —v—v,/; в то же время вероятность ответа «нет» = сумме вероятностей всех глухих фонем, т. е. /к—к, —J*—t—t, —s—s,—s—p—p,—f—f,/. (Мы опускаем данные о назальности, резкости, компактности и диффузности, так как здесь плюсов намного меньше, чем минусов, и низкая вероятность первых очевидна.) [см. табл. на стр. 294.]
Эти цифры существенны особенно потому, что плюсы и минусы приписывались без учета их относительной частотности, целиком на основе исследования различительных признаков и их отношений[209].
плюса (-{-) | минуса (- | |
Звонкий | 0,1174 | 0,1920 |
Диезный | 0,1242 | 0,3445 |
Ударный (только гласные) | 0,0935 | 0,2533 |
Непрерывный | 0,1822 | 0,2530 |
Низкий (гласные) | 0,0772 | 0,1563 |
Низкий (согласи.) | 0,1684 | 0,2861 |
Низкий (гласные и соглас | ||
ные вместе) | 0,2456 | 0,4424 |
Однако общие вероятности встречаемости различительных признаков еще не определяют полностью фонологическую структуру языка; существенна также дистрибуция различительных признаков во времени. С помощью этой дистрибуции измеряется то, что можно было бы назвать «длительностью каждого признака». Дистрибуцию различительных признаков во времени получают из анализа вероятностей групп фонем, о которых говорится ниже. Таким образом, если мы знаем вероятности (abc ... п) различных цепочек из п фонем, мы можем легко определить вероятность того, что данный различительный признак непрерывно существует на протяжении отрезка большего, чем m фонем, где ш=1,2, ...п.
В нашу задачу входит не полное осуществление такого анализа, а лишь выявление возможностей его применения как основного метода описания языков.
б) Группы фонем, слоги В предыдущем разделе мы обращали внимание главным образом на то, что можно назвать фонемными монограммами, т. е. на индивидуальные фонемы, привлекая также группы фонем и вероятности встречаемости групп. Эти группы могут быть диграммами, триграммами и т. д. Другой тип вероятностей, представляющий интерес для изучения языковой структуры—это условная вероятность, т. е. вероятность того, что некоторая фонема будет следовать за данной фонемой или группой фонем. Так, если
р(а Ь...п)—это вероятность группы фонем (а Ь...п), тогда
Р (а Ь ... п) = р (а) ра (Ьс ... п)
= Р (а) Ра (Ь) РаЬ (cd ... п) (4)
= Р (а) Ра (Ь) раЬ (с) pabc (d ... п) и т.д.[210]
При таком способе общая вероятность группы связана с условными вероятностями следующих друг за другом фонем а, Ь, с и т. д., входящих в эту группу. w Если дана отдельная фонема lai или возможная группа фонем /а b ...п/, то фонемы /ш/, которые могут следовать за данной фонемой или группой, имеют вероятности раЬ...п /ш/. Тот факт, что эти вероятности изменяются в соответствии с характером т, означает известную возможность предсказания. Это свойство обеспечивает другую форму «избыточности» в языке — качество, имеющее большое значение при слуховом восприятии речи (например, когда мы прислушиваемся к разговору в шумной комнате).
Если в русской речи слышится палатальная /v,/, можно быть уверенным, что за ней не последует никакой безударной гласной, кроме /і/. После палатальной /Ь,/ вероятность безударной /а/ чрезвычайно мала; последовательность /Ь,а/, например /g'olub.a/ (род.-вин. п. ед. ч.) и /gal'ub.a/ (деепричастие) необычна в языке. При наших подсчетах мы нашли после палатальной Is,/ следующие фонемы с указанными частотами: і 33 'а 6 u 1
■е 16 m2 j 1
'о 9 'u 1 а 1
Ч 8
Следует особо отметить почти полное отсутствие согласных и очень низкую частоту безударной /а/. С другой стороны, после непалатальной Is/ безударная /а/ в нашем материале встречается чаще всего: согласные встречаются после /si весьма свободно.
Наши цифры для фонем после Isl таковы: t 76 р 9 к, 3
а 37 и 6 j 2
t, 30 v 6 4 1
к 27 і 5 m, 1
1 20 m 5 r 1
'a 16 n, 5 'u 1
'o 11 p 5 v, 1
1, 10 x 3 r, 1
n 10
Когда ввиду различия условных вероятностей становится в известной степени возможным предсказание, то информация одной фонемы в речевой цепи оказывается меньше информации, которую содержит та же самая фонема в изолированном положении. Если только фонема не первая в цепочке, мы знаем о ней кое-что еще до ее появления. Информация, приходящаяся на фонему в речевой цепи, может быть точно определена в том смысле, о котором шла речь в предыдущих разделах. Мы можем даже получить формулу, аналогичную уравнению (1), которую можно будет применить к связным группам фонем. Предположим, например, что мы подсчитали вероятности р (ab) всех фонемных диграмм некоторого языка; тогда информация Н, 2, содержащаяся в каждой диграмме этого языка, равна в среднем:
Н, 2=— 2p(ab) log p(ab) битов на диграмму (5). Аналогичным образом для триграмм имеем:
=—2p(abc) log p(abc) битов на триграмму (6).
Если же мы подсчитываем различные условные вероятности р,(Ь), то окажется, что информация диграммы Н, (2), содержащаяся в каждой второй фонеме диграммы, равна:
Hj (2)=—2p(ab) log pa(b) (7).
Точно так же зная условные вероятности раЬ (с), мы полу
чим:
Н,,2 (3)=—2p(abc) log ра,ь(с) (8).
Очевидно, эти различные величины информации, полученные на основе различных таблиц вероятностей, связаны между собой. Чтобы доказать это, рассмотрим уравнение '(4). Прологарифмируем обе его части и выведем затем среднее число для всех возможных групп (ab ... п):
— 2p(ab...n)log p(ab...n) =
— 2p(ab...n) [log p(a)+log pa(b)+log pab(c)...] или
Hn=H1 + H1(2)+H1>2(3)+H1>2,3 (4)... битов на n-грамму (9).
Это означает, что информация, содержащаяся в группе фонем, в среднем равна сумме информаций, содержащихся в каждой последующей фонеме.
Мы подсчитали количество информации на диграмму и триграмму в соответствии с первым типом подсчета, т. е. учитывая границы между словами и между частями сложных слов. Найденные величины равны: 8,45 бита на диграмму и 9,15 бита на триграмму. Если бы фонемы были независимыми, соответствующие величины были бы равны: 9,54 бита на диграмму и 14,31 бита на триграмму. Как и следовало ожидать, рассматриваемые величины уменьшаются, если единицы в цепочке не являются независимыми.
Весьма ценные результаты обещает исследование, которое пока еще не выполнено, состоящее в подсчете дистрибуции различительных признаков во времени, как это было предложено в пункте а § 4. Берем большой отрезок текста, транскрибируемый фонематически, под каждым символом пишем колонку плюсов, минусов и нулей, обозначающих различительные признаки соответствующей фонемы, например, в том порядке, какой мы приняли в табл. А. Горизонтальные последовательности плюсов, минусов и нулей, получающиеся при этом, можно использовать как меру длительности различительных признаков. Вероятности таких последовательностей изображаются как р + (т), р_(т), р0(т), где т=1,2, 3 и т. д. Очевидно, такая дистрибуция создает основу для установления фонологических различий между языками статистическим путем.
Статистический анализ фонем и их последовательностей в связных сообщениях необходимо дополнить аналогичным анализом словаря; такой анализ нужен для понимания дистрибуции фонем в лексическом коде данного языка[211]. Сравнение результатов того и другого анализов, несомненно, должно быть крайне поучительным. Статистический анализ словаря позволяет нам сделать выводы о том, какие именно последовательности фонем характерны для разных типов морфем и для слов различных грамматических категорий[212]. Кроме того, на этом анализе основываются точные утверждения о сочетаниях фонем с вероятностями 1 и 0 (ведь никакая последовательность фонем никогда не может встретиться в сообщении, если она не содержится в коде).
Наконец, к проблемам, которые остается еще исследовать, относится вопрос об условных вероятностях, «действующих назад», т. е. зависящих не от предыдущих, а от последующих событий, или, на языке лингвистических терминов, вопрос не о прогрессивном, а о регрессивном влиянии фонем на другие фонемы в последовательности. Сравнение результатов описанного ранее и предложенного здесь исследования имеет большое значение, ибо очевидно, что для различных типов последовательностей предсказываемое™ в одном направлении больше, чем в другом. Анализ этих фактов предоставит наиболее надежную базу для построения статистической модели слога как рекуррентного * звена в речевой цепи.