<<
>>

Распознание речи человеком и соотношение между акустическими и артикуляционными признаками

Человеческий слух в состоянии различать очень малые частотные разницы между тонами с точностью, которая существенно превосходит разрешающую способность улитки [157]\ производящей сравнительно грубый частотный анализ (в радиотехнических терминах она может быть охарактеризована как прибор с добротностью порядка 10—30 [158]).

Ситуация, таким образом, аналогична тому, что наблюдается применительно к человеческому зрению, точность которого превосходит разрешающую способ-

ность глаза. Это последнее обстоятельство отмечалось в последнее время И. М. Гельфандом и М. Л. Цетлиным, ко­торые видят объяснение этого явления в том, что человек формирует определенную гипотезу, на основании каковой и принимается окончательное решение [159]. Это же объяс­нение, очевидно, справедливо и по отношению к челове­ческому слуху. Здесь имеют место два важных обстоя­тельства, открытых Л. А. Чистович. Во-первых, имен­но благодаря грубости частотного анализа звука оказывается возможным воспроизведение временной кар­тины сигнала[160]. Иначе говоря, преодолевается или об­ходится дополнительность частотного и временного ана­лиза сигнала, которая является существенным препят­ствием на пути к автоматическому анализу звуков речи. Идеальная форманта характеризуется только частотными характеристиками, тогда как идеальный шум характе­ризуется временными характеристиками. Поэтому глас­ные, характеризуемые формантами, могут быть описаны в терминах частот (т. е. по вертикальной характеристике спектра), тогда как шумные согласные могут быть описаны в терминах временного (горизонтального) изменения спек­тра [161]. Но для распознания многих звуков речи требуется одновременное знание частотных и временных характери­стик сигнала, что осуществляется в ходе анализа звука слуховым аппаратом человека, который в этом смысле может считаться специализированным вводным устрой­ством, хорошо приспособленным для ввода устной речи.

Во-вторых, экспериментальное исследование времен­ных задержек при имитации звуков или при их быстром повторении [162] показало, что эти задержки в несколько раз меньше, чем временные задержки (порядка 100 мсек), которые требуются для фонемной классификации звуков. Иначе говоря, исследование временных задержек поз­воляет различить в работе слухового аппарата человека

два этапа, в основном соответствующие двум этапам ра­боты описанного выше гипотетического устройства для автоматического анализа звуков речи. На первом этапе происходит принятие первичных решений на основании полученных акустических сигналов, на втором этапе на основании накопленной последовательности решений при­нимается окончательное решение. «Текущее перекодиро­вание звукового сообщения в последовательность эле­ментарных решений позволяет нервной системе сохранять и подвергать дальнейшей обработке (сличению с длинными эталонами) не слуховые изображения длинных элементов речи (слов и фраз), но лишь последовательности резуль­татов решений (например, реакций), естественно не со­держащие уже той лишней информации, которая присут­ствует в звуковой речи. Таким образом, за счет механизма предварительных решений может достигаться фильтра­ция, очищение сигнала от несущественных подробностей, и система, производящая окончательное распознавание, может обойтись меньшим объемом памяти» [163].

Нужно подчеркнуть, что в модели распознания речи человеком, построенной JI. А. Чистович, основным звеном является быстродействующая оперативная память малого объема, в которой накапливаются элементарные решения об анализируемых сигналах. Сходный подход к выбору одной из возможных лингвистических моделей на осно­вании полученных экспериментальной психологией дан­ных об объеме быстродействующей памяти человека был недавно предложен Ингве. Эти данные Ингве использует для выбора модели синтаксического описания, особенно важного для машинного перевода[164]. Вместе с тем предва­рительные результаты наблюдений над афазиями (рас­стройствами речи) свидетельствуют в пользу гипотезы, согласно которой некоторые случаи афазии связаны имен­но с нарушениями этой быстродействующей памяти[165].

Наибольший интерес представляет исследование того, какой характер имеют первичные решения, накапливае­мые в оперативной памяти по мере анализа акустических сигналов. Согласно теории фонологических различитель­ных признаков, следовало бы ждать, что такие решения и относятся к различительным признакам. Известные уточнения могут быть внесены в это представление бла­годаря тем же работам Л. А. Чистович. В них предпола­гается, что первичными решениями являются артикуля­ционные инструкции, т. е. команды, по которым приво­дятся в движение органы речи, участвующие в произне­сении соответствующего звука. Процесс выработки свя­зей между акустическими сигналами и командами при обучении языку рисуется следующим образом: «Пред­полагается, что вначале связи между слуховыми изобра­жениями звуков и командами, управляющими речевым аппаратом (его параметрами), являются случайными. За­тем методом проб и ошибок из этих случайных связей закрепляются те, при которых звук, создаваемый при ими­тации, наименьшим образом отличается от исходного. Раз­личие между звуками измеряется схемой слухового срав­нения, запоминающей исходный звук на короткое время и сравнивающей его с имитирующим звуком. Теперь каж­дый из слышимых звуков речи закономерно вызывает не­которую комбинацию команд, управляющих различными элементами речевого аппарата (язык, губы и так далее). Возникновение этих команд в ответ на звук и соответ­ствует тому, что было обозначено как первичная класси­фикация. Превращение звука в комбинацию команд до­пускает дальнейшую фонемную классификацию сигналов уже не по акустическим, а по артикуляционным призна­кам. Так, если некоторая і-тая команда всегда возникает в ответ на определенную группу звуков и никогда не вы­зывается остальными звуками, то эта группа звуков мо­жет быть объединена в один класс, обозначена одним сим­волом, даже если звуки ничем общим, кроме і-той команды, не характеризуются»[166].

Эта концепция, согласно которой фонема рассматри­вается как инструкция, может рассматриваться как под­тверждение мыслей Бодуэна о фонеме как намерении и о выделении в фонеме кинем (артикуляционных признаков) и акусм (акустических признаков). Достоинством изло­женных идей J1. А. Чистович является прежде всего то, что в них должное место отводится артикуляционным признакам, которые для человека (в отличие от приборов типа спектрографов) всегда играют основную роль. По­этому то обстоятельство, что традиционная фонетика, ин­тересовавшаяся исключительно человеком, ориентирова­лась на артикуляционную классификацию звуков, было вполне естественным. Позднейшее увлечение возможно­стями современной электроакустической аппаратуры не­сколько отодвинуло назад проблемы физиологической классификации звуков; не случайно в теории различитель­ных признаков столь подробно разработаны именно аку­стические (спектральные) характеристики. Но недоста­точное внимание к артикуляционной стороне процесса образования звуков речи отрицательно сказывалось и на проблеме автоматического распознавания[167]. Исследова­ние соотношения между акустическими и артикуляцион­ными признаками может помочь и в решении чисто инже­нерных проблем, ибо, как указывает Л. А. Чистович, «единственным требованием, предъявляемым к слуховой системе, является получение ею максимума информации о звуке и установление тождества или различия между следующими друг за другом сигналами. Описание звука речи в терминах артикуляционных признаков достигается такой схемой автоматически, при условии, если наилуч­шая имитация (наименьшее расхождение между имити­руемым и имитирующим звуками) может быть обеспечена одним определенным способом произношения. Нужно заметить, что используемый в данной схеме метод анализа сигнала в терминах параметра устройства, создающего сигнал наиболее близкий к анализируемому, фактически совпадает с принципом работы самонастраивающихся фильтров. Возможно, что этот же принцип мог бы быть использован при разработке устройств для автоматиче­ского распознавания речи»[168]. Такой подход к распозна­ванию звуков речи, который позволил бы осуществить здесь кибернетическую идею обратной связи между слу­ховым и речевым аппаратом45, хорошо соответствует вы­сказывавшейся в литературе по машинному переводу и прикладной лингвистике мысли о том, что анализ речи можно рассматривать как процесс, обратный синтезу[169].

Многочисленные экспериментальные данные подтвер­ждают положение о том, что артикуляционная классифи­кация звуков используется при их распознавании. Об этом свидетельствует опыт преподавания родного и ино­странного языка, специально проводившиеся экспери­менты, показавшие, что затруднение артикуляционных движений ухудшает фонемную классификацию (и обратно: быстрое повторение или имитация звуков способствует принятию решений о них), а также эксперименты, во время которых частично устранялись обратные связи между различными элементами слухового и речевого аппа­рата[170]. Такой же вывод можно сделать и на основании экспериментов по восприятию синтезированной речи в лабораториях Хаскинс, доказавших отсутствие одно­однозначных соответствий между артикуляционными и акустическими признаками звуков речи. Опираясь на эксперименты, сотрудники этих лабораторий полагают, что восприятие звуков осуществляется через посредство артикуляции[171].

Особенно показательными для исследования роли ар­тикуляционных признаков являются клинические слу­чаи моторной афазии. При афазии расстройство фоноло­гической системы обычно проявляется в нарушении раз­личительных признаков50, например звонкости — глу­хости (замены типа з—с, д—т, д'—т'), непрерывности — прерывности (замены типа л—р, л'—р', с—т), компакт­ности — некомпактности (замены типа ш—с), палатализо­ванное™ — непалатализованности (замены типа р—р'), назальности — неназальности (замены типа я'—д\ м—п). Для такого описания случаев моторной афазии, которое исходит из гипотезы о преимущественном смешении фо­нем, отличающихся только одним признаком, более удобной может оказаться классификация некоторых фо­нем гіа основании чисто артикуляторных признаков, чем классификация по 12 стандартным признакам Якобсона, Фанта и Халле. Так, смешение к—т (в форме живут) с артикуляционной точки зрения могло бы расматри- ваться как сдвиг на один шаг (заднеязычный к вместо пе­реднеязычного г), тогда как в терминах 12 признаков здесь нужно было бы предполагать нарушение противопо­ставления по двум различительным признакам (компакт­ный и низкий). Описание русской речи моторных афазиков оказывается более удобным, если исходить из понимания р как фонемы, тесно связанной с другими переднеязычными (ср. замены типа р — я, р — д, р — с, р — з), и из сход­ного понимания л (ср. замены типа л — я, л — д, л — с, л — з). Следует, однако, иметь в виду, что если для описа­ния расстройств синтеза и связанных с ними расстройств анализа (слуха) при моторной афазии имеют значение артикуляционные признаки, то для описания сенсорной афазии, возможно, более важны чисто акустические при­знаки. Но во всяком случае исследование афазий, как и опыты по восприятию синтезированной речи нормальными людьми, ясно показывают, что между артикуляционными и акустическими признаками существуют достаточно сложные соответствия, не позволяющие безоговорочно принять гипотезу об их эквивалентности. Множество

60 См. В. В.Иванов, Некоторые лингвистические проблемы, связанные с изучением афазии, «Тезисы докладов третьей научной сессии по вопросам дефектологии», М., 1960, стр. 8; автор с удовлет­ворением отмечает наличие сходного наблюдения в высказываниях У. Вейнрейха на симпозиуме по афазии: Approaches to the study of aphasia, June 15 to July 30, 1958, ed. by С. E. Osgood, p. 24 (разд. 2. 5. 1) и p. 5 (разд. 4. 1. 1).

акустических сигналов по правилам, установленным слу­ховой системой, отображается на множество артикуля­ционных команд, но при этом нельзя предполагать, что между сигналами и командами существует одно-однознач- ное соответствие.

Таким образом, распознавание речи (как и почти все другие операции над языком человека или автомата) можно рассматривать как расшифровку; по данной по­следовательности акустических сигналов человек (или рас­познающее устройство) должен восстановить те команды, согласно которым эти сигналы могут быть получены. Це­почка акустических сигналов, очевидно, не содержит такой информации, которая определяла бы последова­тельно одну фонему за другой. В этом смысле интуитивное предположение о необходимости сегментации непрерыв­ного потока звуков на отдельные фонемы (исходящее из психологической реальности фонем и букв) может и не быть верным. С одной стороны, в данном сигнале (или в данной группе сигналов) содержатся сведения о предше­ствующих и последующих звуковых единицах: так, в сигналах, по времени произнесения соответствующих гласным (в соответствующей транскрипции), часто содер­жится необходимая информация о последующем согласном. Иначе говоря, один сигнал (или группа сигналов) может соответствовать не одной фонеме, а нескольким следующим друг за другом фонемам[172]. С другой стороны, как пока­зывает Л. А. Чистович, в отдельных частях спектра одного звука могут быть выделены участки, соответствующие элементарным акустическим признакам[173] (например, глу­хости— звонкости и т. п.). Таким образом, при принятии первичных решений (т. е. при выработке артикуляцион­ных команд, соотносимых с анализируемыми акустиче­скими признаками) на основании одного сигнала может приниматься решение либо о группе звуков (фонем), либо об отдельном различительном признаке. Отдельные фонемы на этом этапе распознавания звуковой речи, оче­видно, не играют роли и в этом отношении теория разли­чительных признаков хорошо согласуется с новейшими данными. Для описания первичной классификации звуков достаточно пользоваться лишь понятием акустического признака, соотносимого с артикуляционным признаком; такие признаки могут приписываться целым длинным от­резкам речи или же очень малым участкам спектра. Иначе говоря, понятия фонемы для описания данных явлений не требуется. По отношению к названным задачам фонему можно понимать просто как сокращенное обозначение определенного множества различительных признаков (артикуляционных, известным образом связанных с акустическими). Это сокращенное обозначение удобно употреблять при описании тех единиц (морфем и слов), ко­торые состоят из часто повторяющихся одинаковых набо­ров различительных признаков[174]. Такое понимание фонем как сокращенного обозначения часто повторяющихся на­боров различительных признаков, удобного для записи морфем и слов в памяти, представляется реалистичным и по отношению к устройствам для автоматического ввода устной речи (под удобством здесь и далее можно по­нимать именно то, что удобно с точки зрения данного воспринимающего прибора).

Сказанное, однако, нисколько не означает, что сама система различительных акустических признаков (и соот­ветствующих им артикуляционных признаков), исполь­зуемая человеком, должна мыслиться именно такой, какой она описана в работах Якобсона, Фанта и Халле. Система двоичных признаков, принимающих значение «да» и "нет», удобна с точки зрения ее представления в вычислительной машине, так как логика соответствующего устройства яв­ляется очень простой[175]. Возможность построения правил автоматического распознания фонем по различительным признакам становится особенно ясной благодаря пред­ставлению матрицы отожествления фонем в виде дерева, недавно предложенного М. Халле56. Это дерево по суще­ству является алгоритмом распознания фонем, учитываю­щим предсказуемость одного признака на основании дру­гого (иначе говоря, здесь используется принцип построе­ния алгоритма, оказавшийся весьма полезным и для машинного перевода). Явление нейтрализации фонем в дан­ной системе описывается заданием чисда шагов, достаточ­ных для опознания той или иной единицы.

Систему двоичных признаков фонем часто сопостав­ляли с теорией передачи сообщений по каналам связи; однако следует отметить, что выбор двоичных единиц измерения информации вопреки широко распространен­ной точке зрения не играет существенной роли в мате­матической теории информации. Некоторые удобства, связанные с выбором системы двоичных различитель­ных признаков, тем не менее не могут оправдать ее при­менения в тех случаях, когда классификация по двоич­ным признакам может привести к смешению тех фонем (в частности, гласных), спектры которых отличаются друг от друга56. Иначе говоря, если спектры каких-либо зву­ковых единиц отличаются такими характеристиками, которые теряются при. классификации в терминах двоич­ных признаков, то эта классификация должна быть пере­смотрена. Ее двоичный характер едва ли можно считать столь существенным, как это представляется ее авторам57. Описайие в терминах признаков, принймаюіцих положи­тельные и отрицательные значения, оказывается удобным по отношению к согласным, где эта теория хорошо согла­суется с экспериментами по восприятию искаженных сигналов. Опыты, проведенные Миллером и Найсли, по­казали, что при искажении английских согласных вос­приятие одного из пяти признаков (звонкость, назальность, непрерывность, длительность и место образования) не зависит от восприятия других признаков. Следовательно, мы можем представить себе восприятие этих фонем таким

55 См. работу М. Халле в настоящем сборнике. Впервые этот метод был намечен в работе Якобсона, Фанта и Халле, публикуемой в этом сборнике.

56 Один из таких случаев разбирается в работе Л. А. Чистович «Текущее распознавание речи человеком», стр. 46—48.

67 См., в частности, полемическую статью М. Halle, In de­fense of number two, «Studies presented to J. Whatmough», ’s-Graven- hage, 1957, p. 65—72.

m образом, как если бы «имелось пять отдельных простых каналов, а не один-единственный сложный канал»58. Од­нако необходимо дальнейшее экспериментальное изучение, чтобы узнать, действительно ли так воспринимаются глас­ные. Наложение дискретной шкалы двоичных признаков на спектральные характеристики гласных, которые (в от­личие от многих согласных) изменяются непрерывно, должно быть оправдано исследованием соответствующих явлений в отдельных языках (в особенности в языках, об­ладающих достаточно разветвленной системой гласных фонем).

Если во всех языках имеется один и тот же набор признаков, это должно объясняться общими чертами, присущими центральной нервной системе, речевому и слуховому аппарату человека. Установление единого набора признаков для всех языков в настоящее время может рассматриваться как априорное допущение, удоб­ное (как и универсальная грамматика) тем, что оно позволяет сравнивать все языки с помощью одного стан­дарта. В будущем можно будет думать о возможности построения универсальной системы различительных при­знаков путем установления соответствий между реаль­ными наборами различительных признаков, выявленными для отдельных языков.

В настоящее время такого рода исследование только еще начато, но уже достигнуты результаты, свидетель­ствующие о возможности построения экономной системы различительных признаков. Эта возможность создается благодаря дополнительной дистрибуции признаков, ис­пользующихся в разных языках. Так, противопоставления согласных по лабиализации и фарингализации оказы­ваются в разных языках в дополнительной дистрибуции, что позволяет объединить их как варианты одного противо­поставления (flat — plain). Если такого рода сопоставле­ния будут продолжены, универсальный набор различи­тельных признаков для всех языков мира может при­обрести характер сети достаточно общих абстрактных отношений (ср. абстрактные праязыки в сравнительной

68 G. М і 1 1 е г and P. E.N і с е 1 у, An analysis of perceptual confusion among some English consonants, «The Journal of the Acou­stical Society of America», vol. 27, № 2, March 1957. Следует отме­тить, что почти все исследовавшиеся признаки являются артикуля­ционными.

грамматике и языки-посредники для машинного пере­вода).

Нетривиальность результатов, полученных при ана­лизе различительных признаков, особенно очевидна в тех случаях, когда благодаря акустическому исследованию (а также применению кинорентгенологических методов анализа артикуляции) выявляется изоморфность противо­поставлений гласных (открытых и закрытых; переднего и заднего рядов) и согласных (велярных и палатальных, с одной стороны, дентальных и губных, с другой; перифе­рийных и медиальных), сходства между которыми в тра­диционной фонетике не обнаруживались (имеются в виду противопоставления по признакам компактности — диф- фузности, низкой тональности — высокой тональности;. В этой связи необходимо указать на то, что прогресс в исследовании артикуляции (в особенности изучение роли фарингальной полости) во многом способствовал выявлению соответствий между артикуляционными и акустическими признаками. Однако все еще нельзя считать доказанным тезис о том, что каждый признак может быть одновременно определен с точки зрения его производства, акустических свойств, отражаемых на спектрограмме, и восприятия. Как особенно убедительно показывают опыты по восприя­тию синтезированной речи, между этими тремя сторонами звуковой речи существуют весьма сложные (отнюдь не взаимнооднозначные) отношения.

В работах Якобсона в связи с характеристикой при­знаков по восприятию рассматриваются преимущественно проблемы синэстетических связей между звуковыми и цветовыми восприятиями. Эта проблема представляет особый интерес для исследования восприятия у эстетиче­ски одаренных людей: известно, что цветовые восприятия звуков часто встречаются у композиторов (достаточно напомнить идеи Скрябина о цветовом оформлении «Поэмы экстаза») и поэтов (ярчайшим примером является стихо­творение Рембо о гласных). В недавнее время биологиче­ские истоки этой недифференцированное™ восприятия «ошпі-мозга», на новом этапе развития используемой в искусстве, занимали ум С. М. Эйзенштейна, которого проблема звукозрительного синтеза интересовала в связи с эстетическими задачами кино. Несомненно, тщатель­ный анализ подобного восприятия звуков речи мог бы оказаться полезным для фонологии. В качестве примера можно указать на случай отчетливой синэстетической классификации русских фонем у одного из молодых поэтов (позднее стал лингвистом). В этом случае все гласные, сонанты, звонкие согласные, аффриката [ч] и спиранты (ш, ф) воспринимались как цветные (яркие), тогда как глухие смычные и остальные спиранты — как бесцветные (серые). Но прежде чем делать выводы из подобных на­блюдений, необходимо накопить достаточный материал для статистической обработки.

Правильность предложенных в работах Якобсона, Фанта и Халле акустических определений различительных признаков может быть проверена только эксперименталь­ным путем. Проводившиеся в последние годы работы по русскому языку[176] показали, что многие из определений, которые были даны ранее, нуждаются в пересмотре: в частности, пересматривается классификация плавных (р, л) и глайда (/), в связи с чем изменяется роль признаков глас­ность — негласность и согласность — несогласность. Вме­сте с тем в работах Халле обнаруживается стремление сформулировать отчетливый перечень правил, который позволил бы положить систему различительных призна­ков в основу работы распознающего устройства. Поскольку различительные признаки рассматриваются как единицы языка, их можно представлять в виде абстрактной систе­мы, которая лишь опосредствованным образом соотно­сится с физическими данными[177]. Но в таком случае необ­ходимо дать четкие правила этого соотнесения (соответ­ствующие тем правилам, по которым акустические сиг­налы перекодируются в элементарные решения). Именно наличие строгих правил выделения и порождения фоноло­гических единиц должно отличать новейшую фонологию от традиционной, опиравшейся на интуицию.

Введение различительных признаков (а не фонем) в ка­честве основного фонологического понятия может суще­ственно упростить решение многих вопросов синхрониче­ской фонологии (в частности, проблемы нейтрализации фонем, которая проще всего может быть описана в тер­минах различительных признаков, поскольку она сводится к тому, что один из признаков, образующих данную фо­нему, в силу определенных условий отсутствует[178]) и диа­хронической фонологии, так как в эволюции языка основ­ной изменяющейся единицей может считаться не фонема, а различительный признак[179] (ср., например, германское передвижение согласных и «великий сдвиг гласных» в английском языке). Изменение фонологической системы на один шаг — различительный признак наблюдается как при развитии языка целого общества, так и при развитии языка личности — в норме (при обучении ребенка языку) и в патологии (при афазиях). Поэтому теория различи­тельных фонологических признаков представляет суще­ственный интерес не только для прикладной лингвистики, но и для описательного и исторического языкознания.

В настоящий сборник включены вторая глава работы Якобсона, Фанта и Халле, представляющая собой первое подробное описание системы различительных признаков; статья из сборника работ по фонетике, написанная не­сколько позднее Якобсоном и Халле, где дается общий очерк теории; статья Черри, Халле и Якобсона, представляющая собой один из немногих опытов приложения к устному языку методов теории информации (на материале современ­ного русского языка); первая глава из новой книги Халле, где теория различительных признаков сочетается с идеями трансформационной грамматики Хомского, и статья Мальм- берга, дающая популярный критический обзор новых проблем, связанных с использованием современной элек­троакустической аппаратуры для исследования языка. Вместе взятые, эти статьи дают достаточно полную кар­тину развития этой теории, имеющей первостепенное зна­чение для фонологии и смежных теоретических и приклад­ных дисциплин.

В. Иванов

<< | >>
Источник: В.А ЗВЕГИНЦЕВ. НОВОЕ В ЛИНГВИСТИКЕ Выпуск II. ИЗДАТЕЛЬСТВО ИНОСТРАННОЙ ЛИТЕРАТУРЫ Москва 1962. 1962

Еще по теме Распознание речи человеком и соотношение между акустическими и артикуляционными признаками:

  1. СЛОВАРЬ1
  2. Распознание речи человеком и соотношение между акустическими и артикуляционными признаками