ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Система признаков как логическое описание фонемы

В последующем изложении язык будет рассматриваться . как марковский процесс[203]. Фонемы считаются однозначно

определенными, но их порядок в последовательностях, которые составляют нашу выборку, может быть описан только статистически.

При выделении одной определенной фонемы из совокуп­ности фонем данного языка каждый различительный при­знак можно рассматривать как вопрос, на который дается ответ «да» или «нет». Так, про некоторую фонему можно спросить: «Эта фонема — гласная?». Ответ: «Да» или: «Нет». Или: «Эта фонема — согласная?». Ответ: «Да» или: «Нет» и так далее до конца перечня признаков. Чтобы од­нозначно определить фонему русского языка, необходимо задать всего одиннадцать таких вопросов. Таблица А ил* люстрирует эти вопросы с ответами «да» (+) или «нет» (—); нуль (0) означает отсутствие признака.

Таким образом, здесь мы имеем дело с трехзначным делением; к данному вопросу мы еще вернемся ниже.

Простая иллюстрация такого логического описания дается на рис. 1. Во множестве из восьми «объектов» А, В ...Н каждый объект определяется по ответам «да» (+) или «нет» (—). Все множество объектов сначала делится пополам, и мы спрашиваем: находится ли искомый объект на правой половине (+) или нет (—)? Последовательные подразделения в конце концов приведут к идентификации объекта множества. Если имеется N объектов и если N—сте­пень двойки, то число ответов «да» и «нет», необходимое для идентификации любого объекта в нашем множестве, равно log2N. Поэтому полная идентификация любого объекта задается цепочкой плюсов и минусов; так, на­пример, объект G на рис. 1 (см. сл. стр.) определяется цепочкой (Н—|—).

Даже если N не есть степень двойки, величина log2N может быть все-таки использована как мера числа ответов, необходимых для идентификации любого элемента множе-

с определенными вероятностями, называется стохастическим про­цессом (stochastic process); частный случай этого процесса, когда вероятности зависят от предшествующих событий, называется мар­ковским процессом или цепью Маркова».

В своей статье «Пример статистического исследования над текстом «Евгения Онегина», иллю­стрирующий связь испытаний в цепи» («Известия Импер. Академии Наук», СПб., т. 7, 1913) А. А. Марков изучил дистрибуцию гласных и согласных букв в части знаменитой поэмы Пушкина и нашел, что условные вероятности букв не срответствуют случайной дрследова- телщюсти, но зависят от предшествующей буквы или букв.

ства N. В таких случаях дробный результат[204] не следует, конечно, понимать как дробное число вопросов. Этот ре­зультат означает, что не все N элементов нашего множества обязательно требуют для своей идентификации одинако­вого числа ответов. Дробь получается в результате сведе­ния к среднему числу.

АВ CD Е F G Н

— — — — + + + +
— — + + — — + +
+ + + +

Рис. 1.Логическая идентификация элементов множества из восьми объектов.

Величина log2 N условно выражается в так называемых битах; название этой единицы происходит от binary digit[205] (т. е. от выбора одного из двух ответов: «да» или «нет»).

На рис. 1 представлено последовательное деление каж­дый раз на две равные подгруппы; этот метод приводит к идентификации объекта при помощи наименьшего воз­можного числа ответов и, таким образом, к самой короткой цепочке плюсов и минусов. Деление на неравные подгруп­пы требует в среднем больше вопросов и ответов.

Применим теперь этот способ к списку из 42 русских фонем, перечисленных в таблице А. Но сначала рассмотрим чисто гипотетическое описание одной из 42 фонем, предпо­ложив, что это не фонема, а просто некоторый объект без всякого лингвистического значения.

Если бы фонемы были последовательно подразделены на группы, как это показано на рис. 1, для описания любого объекта потре­бовалось бы в среднем log242 вопросов, или 5,38 бита на каждую фонему. В нашем анализе языка нас интересуют, однако, не только вопросы логики, но и действительные факты; поэтому в таблице А ответы «да» или «нет» даются с учетом реального процесса речи.

Зададимся следующим вопросом: можно ли придумать такую систему признаков, которая бы использовала в среднем только 5,38 вопросов на одну фонему и была бы в некотором смысле аналогична только что рассмотренно­му гипотетическому случаю? Это, по-видимому, возможно, но различительные признаки, используемые в действитель­ности (см. табл. А), служат другим целям и тесно связаны

к к, g g, X с J 3 t t, d d, s s, z z, s n n, p p,
Гласный [206] . .
Согласный . . +++++++++++++++++++++
Компактный . + + + + + + + Н---------------------- ------ --------------- --------------- —
Диффузный . 0 0 00000000 0 0 0 0 0 0 0 0 0 0 0
Низкий . . . + 4-4-4-4--------- — — --- -------- ------ + +
Носовой . . . 0 0 000000-- - ---- - b 4
Непрерывный --+-++-- --- + + + + — 00----
Звонкий .
. .
+ + 0 0 - + -- + + — + + ----------- _ —
Диезный . . . + — + 0 0 00 — + - + - + - + 0 - + - +
Резкий .... 0 0 000 000- 0000 + 0000
Ударный . . . 0 0 00000000 0 0 0 0 0 0 0 0 0 0 0
b Ь, f f, v v, m m, iu u >o te •і і te a г r, 1 1, j
Гласный . . . _ -------------------- -++++++++++++-
Согласный . . ++++++++-- --- ------- + + + 4—
Компактный . ------------------------------- ------ --------- 1—l о о о о о
Диффузный . 0 0 000000+ + - + +00 0 0 0 0 0
Низкий . . . + + + + + + + + _!_ + .{— ------- 0 0 0 0 0 0 0
Носовой .
. .
------------------ 1—h 0 0 0 0 0 0 0 0 0 0 0 0 0
Непрерывный + + + 4--------------- 0 0 0 0 0 0 0 0 -- + + 0
Звонкий . . . + + ------- + +------------- 0 0 0 0 0 0 0 0 0 0 0 0 0
Диезный . . . + ----- 1------ r------- h 0 0 0 0 0 0 0 0 —1--------- b о
Резкий .... 0 0 0000 0000 0 0 0 0 0 0 0 0 0 0 0
Ударный . . . 0 0 ooooooH— 0 0 + - + - 0 0 0 0 0

Таблица А. Фонемы русского языка и их различительные признаки.

Знак (-{-) обозначает ответ «да», ^—) — отеєт «нет», (0) — отсутствие признака.

с физической стороной речи. На самом деле различитель­ных признаков одиннадцать, т. е. сюда входят в среднем 5,62 лишних вопроса на одну фонему (11—5,38). Это оз­начает, что используются избыточные, т. е. как бы лиш- ние плюсы и минусы. Однако признаки, предложенные ранее для лингвистического анализа, укладываются в логическую систему описания, хотя, по-видимому, это описание недостаточно экономно.

Можно ли увеличить эффективность нашего эмпириче­ского описания, как-то упростив таблицу А?

Таблица А дает простейшее возможное описание сорока двух фонем в терминах данных одиннадцати различитель­ных признаков.

Данная таблица и рис. 1 содержат ряд различий. Во- первых, вопросы, следующие один за другим в таблице А, имеют фонетическое значение в отличие от вопросов на рис. 1, где просто спрашивается «направо» или «налево». Ответ на первый вопрос (гласный: «да» или «нет»?) делит 42 фонемы не на две равные части (т. е. 21 плюс и 21 минус), а на 12 плюсов и 30 минусов; это объясняется реальным характером фонем русского языка. Второй вопрос (соглас­ный: «да» или «нет»?) снова делит каждую из этих групп на неравные подгруппы и так далее.

Во-вторых, некоторые вопросы из таблицы А для опре­деленных фонем вообще не нуждаются в ответе, так как и без этих вопросов происходит полная идентификация дан­ных фонем.

В таблице А мы употребляем нуль, чтобы обо­значить отсутствие признака, т. е. «возможен как плюс, так и минус». Например, фонема It/ представлена цепочкой

(—_j—о---------------- 0).--- Каждый нуль можно заменить

плюсом или минусом, и это ничего не изменит. При любой такой замене цепочка символов для фонемы Л/ остается единственной и не смешивается ни с одной другой цепочкой. Поскольку каждый нуль можно, таким образом, рассмат­ривать как плюс или как минус, общее число вопросов на каждую фонему одиннадцать. Это и есть мера «инфор­мации», которая заключается в выборе говорящим какой- либо одной фонемы из 42, по крайней мере на основе из­ложенной здесь системы различительных признаков. Од­нако, как мы видели, действительная «информация» может быть выражена средним числом вопросов (битов) на фоне­му— 5,38; тогда 5,62 бита представляют собой избыточ­ность, которая получается в результате замены нолей плю­сами или минусами. (Нужно подчеркнуть, что до сих пор, говоря о мере «информации», мы основывались на пред­положении, что все 42 фонемы имеют равновероят­ную встречаемость и что они являются полностью независи­мыми единицами. Но так как язык имеет, конечно, намного более сложную структуру, наше понятие «информации» будет в дальнейшем уточнено.)

Термин «избыточность» не следует понимать как «рас­точительность». Избыточность — это внутреннее свойство речи, и более того — это свойство каждой системы связи; избыточность служит целям наиболее успешного функцио­нирования системы. В частности, избыточность помогает слушателю устранить неясности, внесенные искажением сигнала или мешающими шумами. Например, признак на­зальности имеет значение /0/ для всех русских гласных. Если заменить нули на плюсы, новые символы не будут оз­начать, что в русской речи гласные всегда назализуются; обычно этого не происходит, но, даже если это имеет место, назальность лишена фонематического значения. В некото­рых случаях нуль стоит там, где подстановка на его место плюса или минуса может обозначать невозможную арти­куляцию; но и здесь дело в том, что данная фонема иден­тифицируется без этого признака.

Если данные таблицы А могут быть перегруппированы так, что уничтожится необходимость употребления дву­смысленного символа 0, то число вопросов, необходимых для идентификации любой фонемы, в среднем уменьшится. Таким образом, описание фонем в терминах данных разли­чительных признаков будет менее избыточно.

3. Устранение двусмысленных нулевых знаков

Можно предположить, что, изменяя порядок вопросов мы сумеем устранить все нули в таблице А или по крайней мере переместить их на конец каждой цепочки знаков так, что их удастся опустить (при этом фонема идентифици­руется цепочкой одних плюсов и минусов). Оказывается, однако, достигнуть этого путем простой перестановки воп­росов невозможно.

Постановка вопроса изменится, если рассматривать таблицу символов (+,—, 0) в качестве кодовой таблицы для идентификации различных фонем. При такой точке зрения нет основания считать, что порядок следования признаков должен быть одинаковым для разных фонем. В самом деле, порядок вопросов в определенных случаях

может меняться в зависимости от ответов на предыдущие вопросы. Иначе говоря, необходимо несколько различных кодовых таблиц. Таблица В показывает результат такой перестройки кода.

В качестве примера рассмотрим идентификацию фонемы /'о/. Ответы на вопросы: гласный?, согласный?, компакт­ный? — будут соответственно: Н—*—. Это показывает, что рассматриваемая фонема принадлежит к группе фонем /'и и 'о 'е 'і і/. Для последующих вопросов нужна новая кодовая таблица. Остальные вопросы, как мы видим из таблицы В, располагаются в следующем порядке: диффуз­ный?, низкий?, ударный? Кодовые таблицы известны a priori и представляют независимую фонетическую струк­туру русского языка; они сами содержат в себе «информа­цию», которую несли нули в табл. А.

к к, g g, х с J з 'и и 'о 'е 'і і 'а а г г, 1 1, j

Гласный . . . Согласный . . Компактный . Низкий . . . Непрерывный Звонкий . . . Диезный . . . і++і++ і++і+і і ++1 і і ++++ і+++і++ і+++ і + і і +++ і і + і +++ і і і ++++++ + + + + + + + + + + + +
Диффузный

Низкий

Ударный

+ н------------ Ь +

+ -Ы----------

+ - +-

+ -
Диезный

Непрерывный

- + - + - - + +

11, d d, s s, z z, § П П, p p, b b, l-t*

<

в

3

Гласный . . . __ ______
Согласный . . ++++Н Н+++++++++++++++
Компактный . -- -- -------- ------ -- --------
Низкий . . .
Носовой . . . -- -- ------- + + — -- ---- ------ 1—h
Диезный . . . - + - + - 1------- h — - 1------ h - + - 1------ 1------ h
Непрерывный -- -- + + + 4— -- -- + + + +
Звонкий . . . -- + + ----- + + - — — + + -- + +
Резкий .... -- --- +

Таблица В. Фонемы русского языка, расположенные в таком порядке, который позволяет устранить двусмысленный нуль.

Процесс перекодирования можно рассматривать как трансформацию. Число знаков (битов), необходимых для идентификации каждой фонемы, теперь меньше, чем раньше, за счет исключения знака «нуль» из таблицы А. Хотя чис­ло необходимых для идентификации знаков различно для разных фонем, в среднем оно равно 6,5 битов на фонему,— величина, значительно меньшая, чем наша первоначальная (11 битов), и более близкая к теоретической величине в

5,38 бита. Таким образом, описание в терминах различи­тельных признаков стало более эффективным.

4. Вероятности фонем

а) Индивидуальные частоты встречаемости

Следующий этап в нашем описании языка — это рас­смотрение относительных частот встречаемости индивиду­альных фонем.

Вычисленная предварительно «информация» в битах на фонему имеет гипотетическую минимальную величину

5,38 (log242). Это результат последовательного деления мно­жества фонем каждый раз на две равные группы. Если же частоты встречаемости фонем неравны, необходимую сред­нюю величину (число битов на одну фонему) можно по­лучить путем последовательного деления множества фонем каждый раз на две группы. При этом общая вероятность встречаемости фонем первой группы будет равна общей вероятности встречаемости фонем второй группы. Тогда среднее число вопросов, необходимых для идентификации одной фонемы (в битах на фонему), будет равно Hlf где

Н,=— Spjlogpi (1)

Суммирование идет по всем фонемам і (помните, что pj всегда меньше[207] 1).

Заметим, что Hj есть «математическое ожидание» для величины— log Pj.

5,81

5,95

5,96,

6,20

6,25

6.30

6.39 6,60 6,80

6.84

6.84 6,86 6,86

7.40

7.50 7,60 7,64 8,10 8,90

10.30

10.50

0,100

0,096

0,091

0,083

0,081

0,C80

0,075

0,067

0,062

0,061

0,061

0,058

0,058

0,044

0,043

0,039

0,038

0,029

0,018

0,008

0,008

9

4

6

4 8 9 8

5

7

8

5 8 8 9 6 8 8

7

6 8 7

1316

977

602

539

457

392

379

359

343

284

273

243

240

232

230

221

212

177

162

153

133

130

126

119

102

91

89

89

85

85

59

56

52

50

36

21

8

7

0,387

0,328

0,244

0,228

0,202

0,183

0,179

0,172

0,167

0,146

0,140

0,131

0,129

0,126

0,125

0,121

0,118

2,94

3,35

4,05

4,23

4,45

4,66

4,72

4,80

4,86

5.14

5.14 5,38 5,40 5,42 5,45 5,50 5,55

4

6

9

4 2 6

5 8

5

7

8

5 6 8 4 6 4

а

і

t

'a

j

n

lo

s

te

к

v

і

u

p

r

n,

1

s

m

с

t,

r,

z

d,

b

x

g

V,

3

f

S,

s

m,

b,

P,

k,

z,

f,

g,

207 5,56 0,115

202 5,64 0,114

197 5,65 0,111

196 5,65 0,111

Таблица С.

a = фонема (і); 6 = pjxl04; с = —log2pj; d=^— pj log2 pj; e = число при­знаков в таблице В (і означает: «любая данная фонема»; pj означает: «веро­ятность данной фонемы»).

Относительные частоты встречаемости индивидуаль­ных фонем русского языка подсчитаны с помощью метода, описанного в последних абзацах § 1; частоты даны в таб­лице С, и, основываясь на них, мы можем легко подсчи­тать по формуле (1) гипотетическую «информацию» Нх:

Н1==4,78 бита на фонему (2)

С другой стороны, зная вероятности р* индивидуальных фонем, мы можем подсчитать среднее число различитель­ных признаков, т. е. двоичных выборов на фонему. Если Nt—это число различительных признаков, необходимых для идентификации і-той фонемы в табл. В, то среднее ко­личестводвоичных выборов или различительных признаков на фонему, имеющее место в действительности, равно

£N^=5,79 признаков на фонему, (3)

Что можно сравнить с Идеальной величиной, найденной по формуле (2).

В своей недавней статье 10 Д. Хаффмен описал метод построения наиболее эффективного кода для множества независимых сообщений с известной дистрибуцией частоты встречаемости. В таком коде «среднее число кодовых еди­ниц на сообщение доведено до минимума».

Если рассматривать фонемы нашего языка как незави­симые сообщения, то можно применить метод Хаффмена и подсчитать на основании данных в табл. С вероятностей число кодовых единиц, которые потребовались бы в опти­мальном коде для идентификации каждой фонемы. Это чис­ло можно сравнить с тем числом различительных призна­ков, необходимых для идентификации каждой фонемы, ко­торое дается в табл. В. Однако необходимо указать, что эти числа, строго говоря, не сравнимы: как констатировалось в §3, описание в терминах различительных признаков пред­полагает, что рассматриваемые единицы интерпретируют­ся по-разному в зависимости от ответов, полученных на предыдущей стадии анализа, тогда как все единицы в коде Хаффмена имеют одну и ту же интерпретацию. В нижесле­дующей таблице мы сопоставляем число фонем, которые задаются данным числом единиц в оптимальном коде, с числом фонем, которые задаются тем же самым числом различительных признаков в табл. В[208].

ЧИСЛО ЕДИНИЦ или РАЗЛИЧИТЕЛЬНЫХ 2345678910

ПРИЗНАКОВ

В оптимальном Число коде 0 2211 13 83 1 2

фонем В действитель­ности (в табл. В) 1 0 6 4 10 4 12 5 0

Из приведенной таблицы видно, что метод различи* тельных признаков, рассматриваемый нами пока просто как способ описания, оказывается весьма эффективным.

До сих пор мы рассматривали фонемы языка как неза­висимые объекты. Но естественный процесс речи отнюдь не состоит в выборе цепочки независимых фонем; напротив, в конечном счете речь есть последовательность выборов, где каждый выбор частично обусловлен предшествующей (т. е. выбранной ранее) фонемой. Более точное описание естественного процесса речи основывается на утвержде­нии, что фонемы выбираются группами. Таким образом, выполненный нами простой анализ нужно рассматривать как несколько искусственное, хотя и вполне эффективное описание языка в его простейшем аспекте.

Перед тем как закончить этот раздел, мы должны отме­тить несколько статистических фактов, взятых из таб­лицы С.

Вероятность встречаемости гласной=0,4190; плавной = 0,0737; фонемы/j/=0,0457; собственносогласной=0,4616п.

В нижеследующей таблице вероятности плюсов и мину­сов для каждого различительного признака были вычисле­ны сложением вероятностей всех фонем, имеющих в таблице В плюс для этого признака, и сложением вероятно­стей всех фонем, имеющих минус. Таким образом, вероят­ность ответа «да» на вопрос «звонкий?» — это сумма вероят­ностей всех звонких фонем, т. е. lg—g,—з—d—d,—z—z, —b—b, —v—v,/; в то же время вероятность ответа «нет» = сумме вероятностей всех глухих фонем, т. е. /к—к, —J*—t—t, —s—s,—s—p—p,—f—f,/. (Мы опускаем данные о назальности, резкости, компактности и диффузности, так как здесь плюсов намного меньше, чем минусов, и низкая вероятность первых очевидна.) [см. табл. на стр. 294.]

Эти цифры существенны особенно потому, что плюсы и минусы приписывались без учета их относительной ча­стотности, целиком на основе исследования различитель­ных признаков и их отношений[209].

плюса (-{-) минуса (-
Звонкий 0,1174 0,1920
Диезный 0,1242 0,3445
Ударный (только гласные) 0,0935 0,2533
Непрерывный 0,1822 0,2530
Низкий (гласные) 0,0772 0,1563
Низкий (согласи.) 0,1684 0,2861
Низкий (гласные и соглас­
ные вместе) 0,2456 0,4424

Однако общие вероятности встречаемости различитель­ных признаков еще не определяют полностью фонологиче­скую структуру языка; существенна также дистрибуция различительных признаков во времени. С помощью этой дистрибуции измеряется то, что можно было бы назвать «длительностью каждого признака». Дистрибуцию разли­чительных признаков во времени получают из анализа вероятностей групп фонем, о которых говорится ниже. Та­ким образом, если мы знаем вероятности (abc ... п) раз­личных цепочек из п фонем, мы можем легко определить вероятность того, что данный различительный признак непрерывно существует на протяжении отрезка боль­шего, чем m фонем, где ш=1,2, ...п.

В нашу задачу входит не полное осуществление такого анализа, а лишь выявление возможностей его применения как основного метода описания языков.

б) Группы фонем, слоги В предыдущем разделе мы обращали внимание главным образом на то, что можно назвать фонемными монограм­мами, т. е. на индивидуальные фонемы, привлекая также группы фонем и вероятности встречаемости групп. Эти группы могут быть диграммами, триграммами и т. д. Дру­гой тип вероятностей, представляющий интерес для изуче­ния языковой структуры—это условная вероятность, т. е. вероятность того, что некоторая фонема будет следовать за данной фонемой или группой фонем. Так, если

р(а Ь...п)—это вероятность группы фонем (а Ь...п), тогда

Р (а Ь ... п) = р (а) ра (Ьс ... п)

= Р (а) Ра (Ь) РаЬ (cd ... п) (4)

= Р (а) Ра (Ь) раЬ (с) pabc (d ... п) и т.д.[210]

При таком способе общая вероятность группы связана с условными вероятностями следующих друг за другом фонем а, Ь, с и т. д., входящих в эту группу. w Если дана отдельная фонема lai или возможная группа фонем /а b ...п/, то фонемы /ш/, которые могут следовать за данной фонемой или группой, имеют вероятности раЬ...п /ш/. Тот факт, что эти вероятности изменяются в соответ­ствии с характером т, означает известную возможность предсказания. Это свойство обеспечивает другую форму «избыточности» в языке — качество, имеющее большое зна­чение при слуховом восприятии речи (например, когда мы прислушиваемся к разговору в шумной комнате).

Если в русской речи слышится палатальная /v,/, можно быть уверенным, что за ней не последует никакой безударной гласной, кроме /і/. После палатальной /Ь,/ вероятность безударной /а/ чрезвычайно мала; последо­вательность /Ь,а/, например /g'olub.a/ (род.-вин. п. ед. ч.) и /gal'ub.a/ (деепричастие) необычна в языке. При на­ших подсчетах мы нашли после палатальной Is,/ следую­щие фонемы с указанными частотами: і 33 'а 6 u 1

■е 16 m2 j 1

'о 9 'u 1 а 1

Ч 8

Следует особо отметить почти полное отсутствие соглас­ных и очень низкую частоту безударной /а/. С другой сто­роны, после непалатальной Is/ безударная /а/ в нашем материале встречается чаще всего: согласные встречаются после /si весьма свободно.

Наши цифры для фонем после Isl таковы: t 76 р 9 к, 3

а 37 и 6 j 2

t, 30 v 6 4 1

к 27 і 5 m, 1

1 20 m 5 r 1

'a 16 n, 5 'u 1

'o 11 p 5 v, 1

1, 10 x 3 r, 1

n 10

Когда ввиду различия условных вероятностей стано­вится в известной степени возможным предсказание, то информация одной фонемы в речевой цепи оказывается меньше информации, которую содержит та же самая фоне­ма в изолированном положении. Если только фонема не первая в цепочке, мы знаем о ней кое-что еще до ее появле­ния. Информация, приходящаяся на фонему в речевой цепи, может быть точно определена в том смысле, о котором шла речь в предыдущих разделах. Мы можем даже получить формулу, аналогичную уравнению (1), которую можно бу­дет применить к связным группам фонем. Предположим, например, что мы подсчитали вероятности р (ab) всех фо­немных диграмм некоторого языка; тогда информация Н, 2, содержащаяся в каждой диграмме этого языка, рав­на в среднем:

Н, 2=— 2p(ab) log p(ab) битов на диграмму (5). Аналогичным образом для триграмм имеем:

=—2p(abc) log p(abc) битов на триграмму (6).

Если же мы подсчитываем различные условные вероят­ности р,(Ь), то окажется, что информация диграммы Н, (2), содержащаяся в каждой второй фонеме диграммы, равна:

Hj (2)=—2p(ab) log pa(b) (7).

Точно так же зная условные вероятности раЬ (с), мы полу­

чим:

Н,,2 (3)=—2p(abc) log ра,ь(с) (8).

Очевидно, эти различные величины информации, полу­ченные на основе различных таблиц вероятностей, связаны между собой. Чтобы доказать это, рассмотрим уравнение '(4). Прологарифмируем обе его части и выведем затем сред­нее число для всех возможных групп (ab ... п):

— 2p(ab...n)log p(ab...n) =

— 2p(ab...n) [log p(a)+log pa(b)+log pab(c)...] или

Hn=H1 + H1(2)+H1>2(3)+H1>2,3 (4)... битов на n-грамму (9).

Это означает, что информация, содержащаяся в груп­пе фонем, в среднем равна сумме информаций, содержащих­ся в каждой последующей фонеме.

Мы подсчитали количество информации на диграмму и триграмму в соответствии с первым типом подсчета, т. е. учитывая границы между словами и между частями слож­ных слов. Найденные величины равны: 8,45 бита на диграм­му и 9,15 бита на триграмму. Если бы фонемы были неза­висимыми, соответствующие величины были бы равны: 9,54 бита на диграмму и 14,31 бита на триграмму. Как и следовало ожидать, рассматриваемые величины уменьшают­ся, если единицы в цепочке не являются независимыми.

Весьма ценные результаты обещает исследование, ко­торое пока еще не выполнено, состоящее в подсчете дист­рибуции различительных признаков во времени, как это было предложено в пункте а § 4. Берем большой отре­зок текста, транскрибируемый фонематически, под каж­дым символом пишем колонку плюсов, минусов и нулей, обозначающих различительные признаки соответствующей фонемы, например, в том порядке, какой мы приняли в табл. А. Горизонтальные последовательности плюсов, ми­нусов и нулей, получающиеся при этом, можно исполь­зовать как меру длительности различительных признаков. Вероятности таких последовательностей изображаются как р + (т), р_(т), р0(т), где т=1,2, 3 и т. д. Очевид­но, такая дистрибуция создает основу для установления фонологических различий между языками статистическим путем.

Статистический анализ фонем и их последовательно­стей в связных сообщениях необходимо дополнить ана­логичным анализом словаря; такой анализ нужен для понимания дистрибуции фонем в лексическом коде дан­ного языка[211]. Сравнение результатов того и другого анализов, несомненно, должно быть крайне поучитель­ным. Статистический анализ словаря позволяет нам сде­лать выводы о том, какие именно последовательности фонем характерны для разных типов морфем и для слов различных грамматических категорий[212]. Кроме того, на этом анализе основываются точные утверждения о соче­таниях фонем с вероятностями 1 и 0 (ведь никакая по­следовательность фонем никогда не может встретиться в сообщении, если она не содержится в коде).

Наконец, к проблемам, которые остается еще иссле­довать, относится вопрос об условных вероятностях, «действующих назад», т. е. зависящих не от предыдущих, а от последующих событий, или, на языке лингвистиче­ских терминов, вопрос не о прогрессивном, а о регрессив­ном влиянии фонем на другие фонемы в последовательно­сти. Сравнение результатов описанного ранее и предло­женного здесь исследования имеет большое значение, ибо очевидно, что для различных типов последовательностей предсказываемое™ в одном направлении больше, чем в дру­гом. Анализ этих фактов предоставит наиболее надежную базу для построения статистической модели слога как ре­куррентного * звена в речевой цепи.

<< | >>
Источник: В.А ЗВЕГИНЦЕВ. НОВОЕ В ЛИНГВИСТИКЕ Выпуск II. ИЗДАТЕЛЬСТВО ИНОСТРАННОЙ ЛИТЕРАТУРЫ Москва 1962. 1962

Еще по теме Система признаков как логическое описание фонемы: