Фонологическая модель и техническое устройство
В современной лингвистике особенно ясно видно то, что научные идеи определяются не только людьми, но и приборами, которыми люди пользуются в каждый данный период времени. Такие новые приборы, которые могут осуществлять различные операции над языком (в том числе и исследовать язык) и поэтому приводят к появлению нового взгляда на язык, были построены за последние двадцать лет.
Это прежде всего электроакустические приборы для распознавания (анализа) и порождения (синтеза) звуковой речи. Интерес к возможностям построения говорящих машин возник очень давно — еще в XVIII в., когда всеобщее увлечение автоматами было первым (и еще весьма наивным) предвосхищением некоторых идей кибернетики. Так, например, в 1780 г. Санкт-Петербургская Академия Наук предложила для решения такие два вопроса: «I. Какое свойство и характер столь различных между собою в рассуждении выговора гласных букв а, е, /, о, и. II. Не можно ли сделать орудия органическим трубам, известным под именем человеческого голоса, подобные, кои бы произносили гласные буквы а, е, /, о, а»[136].
В этой постановке вопроса, характерной для аналогичных исследований, предпринимавшихся на протяжении XVIII в. и начала XIX в. в различных странах Европы, многое перекликается с современным подходом к исследованию звуковой речи: связь различительных свойств звуков с конструированием соответствующего прибора для синтеза речи, уподобление человеческого аппарата искусственному устройству. В работах Кемпелена, сконструировавшего в конце XVIII в. говорящий автомат, были предвосхищены современные представления о производстве речи как процессе, во время которого налагаются модуляции на чисто периодические колебания или на шум[137]. Однако такие механические устройства, которые могли быть построены в XVIII в. и XIX в., не давали возможности глубоко исследовать процесс синтеза звуков, как и акустические проблемы анализа звуков речи.
Поэтому, несмотря на появление в XIX в. ряда выдающихся исследований физиков и математиков (Гельмгольца, Грассмана и др.), посвященных теории образования звуков речи, эти работы почти не оказали влияния на собственно фонетические описания языка. Экспериментальная (т. е. инструментальная) фонетика (как до этого фонетика, не пользовавшаяся никакими инструментами) в начале XX в. занималась почти исключительно артикуляцией (физиологией) звуков речи и очень мало внимания уделяла акустической стороне речевого процесса; к числу важных исключений относится ранняя работа Л. В. Щербы о русских гласных, до сих пор сохраняющая значение[138]. Такое преимуществвенное внимание к артикуляционной стороне процесса образования звуков было связано не только с отсутствием соответствующих устройств, но и с тем, что все названные выше практические приложения традиционной фонетики (и фонологии на первом этапе ее развития) могли быть решены с помощью одних только артикуляционных данных.
t Положение постепенно менялось на протяжении периода между первой и второй мировыми войнами, когда потребности техники связи привели к необходимости акустического исследования звуков речи, а успехи электроники сделали возможным построение приборов для весьма тонкого анализа и синтеза звуков речи. В этих приборах комбинация фильтров с фиксированной шириной полосы пропускания используется для автоматического частотного анализа спектра звуков связной речи[139]. Вскоре после второй мировой войны для исследования языка стал широко использоваться звуковой спектрограф (или сонограф) типа «Видимая речь». Этот прибор позволяет визуально представить акустические свойства звуков (соотношение частоты и интенсивности, определяемой относительной амплитудой колебаний, и изменение этих характеристик во времени), т. е. подтверждает реальность чаяний Бодуэна де Куртене, о которых говорилось выше. На спектрограмме «видимой речи» частотные и временные характеристики акустических сигналов представлены количественно, тогда как об интенсивности можно судить по яркости изображения.
Для более специальных целей могут быть разработаны устройства, дающие точные количественные данные обо всех параметрах звуков речи.Начиная с работы Гельмгольца, а позднее Штумпфа, результаты которой были опубликованы в 1926 г., на протяжении нескольких десятилетий продолжались исследования по восприятию человеком звуков, спектр которых подвергнут искажению. Эти работы, в виду их практических приложений к технике связи особенно интенсивно проводившиеся во время второй мировой войны, много дали для вы* явления тех акустических признаков звуковых единиц, которые являются необходимыми и достаточными для распознавания этих единиц. Строгое исследование соотношения между акустическими и артикуляционными признаками стало возможным также лишь в самое последнее время, во-первых, потому, что для этого необходимо более точное знание геометрии голосового тракта, достигнутое благодаря применению рентгенологических (а в последнее время кинорентгенологических) методов, во-вторых, потому что для решения соответствующих математических задач необходимы весьма сложные вычисления, производить которые было крайне затруднительно до появления современных вычислительных машин. В последнее время, с одной стороны, начинается использование вычислительных машин в этих целях[140], с другой стороны, строятся различные электрические аналоги человеческого речебо- го аппарата. Научное значение этих электрических моделей заключается прежде всего в том, что они позволяют достаточно эффективным образом решить задачу соотнесения тех артикуляционных признаков, которые могут быть моделированы с помощью этих говорящих автоматов, и акустических признаков звуков речи, синтезируемых этими автоматами. Вместе с тем для исследования проблем психологической акустики первостепенное значение имеют устройства для синтеза звуков речи, которые позволяют превратить спектрограммы «видимой речи» (точнее, упрощенные схемы спектрограмм) в соответствующие звуки. В лабораториях Хаскинс с помощью этого устройства изучалось восприятие отдельных акустических признаков звуков речи носителями соответствующих языков, которым давали прослушивать синтезированные слоги.
Помимо огромного научного интереса, который представляют электроакустические приборы для анализа и синтеза звуков речи, эти устройства могут иметь и большое практическое значение. Прежде всего их применение может позволить решить в принципе чрезвычайно важную задачу эффективной передачи речевых сообщений по каналам проводной и непроводной связи (радио, телефонной и т. п.). В современном обществе эти каналы связи оказываются чрезвычайно перегруженными: с этим ежедневно сталкивается любой житель большого города, который пытается дозвониться по нужному ему телефонному номеру. Количество сообщений, передаваемых по каналам связи, с каждым годом увеличивается; в некоторых специальных условиях (например, в будущих космических полетах) задачи обеспечения эффективной связи приобретают особое значение. Всё это позволяет думать, что приложения к технике связи являются в настоящее время важнейшими среди всех актуальных вопросов прикладной лингвистики.
Все системы связи в человеческом обществе включают человека в качестве необходимого звена [141], которое не может быть устранено сейчас (и, надо надеяться, никогда не будет устранено). Поэтому и возникает практическая потребность описывать человека и технические элементы связи в единых терминах. Это в известной мере оказывается возможным благодаря достижениям новой математической дисциплины — теории информации, позволяющей давать количественную оценку различных каналов связи, в том числе и биологических (например, тех каналов связи, которыми являются органы чувств человека).
Одной из важных количественных характеристик канала связи является его пропускная способность, т. е. количество информации (обычно измеряемое в двоичных единицах/ которое может быть передано по каналу связи за единицу времени[142]. Существующие системы связи, используемые для передачи речевых сообщений, имеют пропускную способность, заключенную между 104 и 106 двоичных единиц информации в секунду; так, системы телефонной связи имеют пропускную способность порядка 30 ООО двоичных единиц информации в секунду.
Между тем сочетание методов теории информации и фонологии позволяет оценить количество информации, передаваемой человеком посредством последовательностей фонем, как примерно 50 двоичных единиц информации в секунду (сходные числа характеризуют и другие виды человеческого общения: так, опытная машинистка или пианист могут передавать сигналы со скоростью 25 двоичных единиц информации в секунду)[143]. Таким образом, существующие системы связи устроены крайне неэкономно, так как они передают огромное количество сигналов, избыточных с точки зрения языка [144]. Отсюда возникает задача компрессии речи, т. е. разработки систем, которые позволили бы передавать по каналам связи только те сигналы, которые несут фонологическую информацию, т. е. служат для различения единиц языка. Это сделало бы возможным частичное устранение того несоответствия (примерно в 1000 раз), которое существует между пропускной способностью канала связи и количеством информации, передаваемой посредством звукового языка. Полностью устранить это несоответствие едва ли окажется возможным (во всяком случае, в близком будущем), но предполагается, что может быть достигнут компромисс, при котором по телефонному каналу связи будет передаваться примерно 1000 двоичных единиц информации в секунду. Это может быть достигнуто посредством автоматического анализа и синтеза звуковых сообщений, передаваемых по каналу связи. Передаваемое сообщение анализируется устройством, которое устраняет часть избыточных сигналов, после чего по каналу связи передаются в основном только сигналы, несушие информацию; на другом конце канала связи имеется устройство, синтезирующее звуковую речь на основе полученных сигналов. Построение таких устройств принесло бы огромный экономический эффект и имело бы важные социальные последствия, т. к. оно существенно облегчило бы коммуникацию в современном обществе: по тем каналам связи, которые сейчас используются для передачи одного сообщения, оказалось бы возможным передавать несколько десятков сообщений. Этим объясняется ТО, ЧТС/ в разных странах мира (США, Японии, Англии, Швеции и др.) интенсивно ведутся исследования и инженерные работы в этой области, субсидируемые коммерческими фирмами и военными учреждениями.Указанное несоответствие между каналом связи и человеческой речью создает существенные трудности не только для техники связи, но и для инструментально-фонетического исследования языка с помощью современной электроакустической аппаратуры. Рассматривая спектрограф как канал связи с шириной полосы пропускания W= = 10 ООО гц и отношением сигнала к шуму D=30, можно оценить его пропускную способность по формуле C=yWy =
= 50 ООО двоичных единиц информации в секунду[145]. За одну секунду может быть произнесено около 10 фонем, каждая из которых несет не более 7 двоичных единиц информации (т. к. число фонем ни в одном языке мира не превышает 80). Отмечая это огромное несоответствие между возможностями спектрографа и речью человека, шведский инженер Фант пишет: «Фонетист, который начинает исследование в надежде дать точное описание речи в пределах, определяемых пропускной способностью канала его спектрографического анализатора, оказывается перед лицом астрономически большого числа возможных моделей, которые он должен рассмотреть. Эта задача невыполнима. Трудность заключается не в записи спектрографических данных, а в использовании полученных данных для максимально полного описания» [146]. Следует отметить, что аналогичные задачи выбора одной из астрономически большого числа возможных моделей возникают и в других областях прикладной и математической лингвистики (и кибернетики в целом): так, при автоматическом анализе английских предложений со средней длиной в 20 слов, при котором вычислительная машина должна сама строить и перебирать предложения такой же длины, как данное, потребовалось бы перебрать 1042 предложений; это число превышает количество секунд (3 • 1017),прошедших со времени возникновения Земли, и число сантиметров (2 • 10[147]), отделяющее Землю от наиболее удаленной звезды[148]. К астрономическим числам приводят и некоторые опыты построения систем смысловых единиц и их комбинаций, которые достаточно полно описывали бы семантику естественных языков. Все подобные задачи, типичные для современной прикладной лингвистики и кибернетики, нельзя решать путем простого перебора всех возможностей. Необходимо разработать более эффективные критерии выбора одной из всего множества моделей, которая является наиболее приемлемой с точки зрения данного устройства (или системы, в которую входят человек и устройство), и целей, которые перед ним ставятся. В частности, решение теоретических проблем фонологии в .настоящее время сводится к задаче, весьма близкой к задаче компрессии речи: необходимо разработать такие фонологические модели, которые использовали бы данные электроакустических приборов, но в то же время не содержали бы ничего избыточного с точки зрения того или иного языка. Именно эту цель и преследует теория фонологических различительных признаков.
Одной и той же совокупности реальных речевых событий (т. е. некоторому множеству последовательностей акустических сигналов, передающих речевые сообщения) может соответствовать несколько разных фонологических моделей22. Общеизвестно, что для одного и того же языка инвентарь фонем может быть описан по-разному: например, в современном русском языке [и] и [ы], согласно одной фонологической модели, описываются как варианты (аллофоны) одной фонемы, согласно другой модели — как две разные фонемы. Но еще более существенно то, что одну и ту же фонологическую систему можно описать в терминах различных фонологических единиц (различительных признаков, фонем, фонологических слогов и слов). Степень применимости и приемлемости той или иной фонологической модели зависит не только от структуры данного языка, но и от целей описания23: так, система, пригодная для анализа звуковой речи, может не годиться для синтеза; система, пригодная для одного устройства (например, для слухового аппарата человека), может не годиться для другого устройства (например, для автомата с определенными характеристиками, существенно отличающимися от характеристик слухового аппарата человека).
Выбор одной из нескольких возможных моделей обычно производился (хотя и интуитивно) в зависимости от того устройства, на которое рассчитано описание, и от целей, которые перед этим устройством ставились (например, при описании китайского или английского языков в терминах физиологической — т. е. артикуляторной — фонетики, с точки зрения русских, обучающихся этим языкам). Но до тех пор, пока наука о языке имела дело почти исключительно лишь с речевым (а не слуховым) аппаратом человека, этот критерий выбора наиболее удобной модели не формулировался отчетливым образом. Положение существенно изменилось в настоящее время, во- первых, благодаря появлению технических возможностей конструирования различных устройств, анализирующих и синтезирующих речь, во-вторых, благодаря успехам в исследовании человеческого слухового аппарата, который может быть описан как прибор, обладающий определенными количественными характеристиками. Поэтому можно поставить задачу выработки точных критериев, по которым для данного устройства (человеческого или автоматического) из всего множества мыслимых лингвистических моделей должна быть выбрана модель, определяющая программу работы этого устройства; правильность выбора может быть доказана работой моделирующего устройства.
Применительно к фонологии задача выбора модели, наиболее соответствующей данному устройству, и обратная задача — построения устройства, соответствующего определенной модели,— особенно остро встает в связи с целым рядом задач прикладной лингвистики. Для решения проблем компрессии речи, быстрого ввода информации в вычислительные машины, для управления голосом различными объектами (например, производственными), для построения автоматов, заменяющих стенографисток и машинисток, а также и для машинного перевода устной речи, необходимо разработать такие устройства, которые могли бы анализировать устную речь; обратная задача синтеза устной речи представляет интерес не только для решения тех же вопросов компрессии речи и машинного перевода, но и для построения машин, помогающих слепым, и для быстрого сообщения человеку данных различных приборов (так, в зарубежной технической печати указывалось, что показания большого числа приборов в современных самолетах автомат может сообщать летчику в форме фраз устного языка, синтезируемых автоматом). Весь этот круг вопросов, связанных с обеспечением связи между людьми и автоматами, не может быть решен без определения фонологических единиц, которые должны распознаваться машиной и храниться в ее памяти.
На протяжении последних 15 лет предпринимались многочисленные попытки решить задачу автоматического распознавания устной речи только на основе анализа отдельных звуков речи или фонем. Но эти исследования натолкнулись на ряд существенных препятствий. Во-первых, для того, чтобы опознать отдельные звуки (варианты фонем), нужно предварительно разбить на дискретные единицы (сегментировать) непрерывный речевой поток, что оказывается чрезвычайно трудной задачей, для решения которой часто нужно уметь распознавать отдельные звуки[149]. Во-вторых, при опознании отдельных звуков, произносимых разными дикторами, весьма вероятны ошибки, которые можно было бы устранить, опираясь на статистические закономерности языка, т. е. используя избыточность многих элементов языка, которые легко могут быть предсказаны на основании других элементов. В качестве иллюстрации использования избыточности при человеческом восприятии речи автор может привести пример из своего собственного опыта: слушая слова русского языка, синтезированные прибором, который мог синтезировать только гласные и некоторые фрикативные согласные, автор воспринял одно из этих слов как русское хорошо, не заметив при этом никаких неправильностей в произношении (кроме известной деланности интонации, обычной для синтезированной речи). В действительности же р в этом слове не было синтезировано: оно заменялось перерывом в произношении гласных, что для человека, знающего русский язык, было достаточным указанием на наличие р в этом слове. Очевидно, автомат, распознающий единицы устной речи, должен использовать эти статистические закономерности языка. По указанным причинам (а также и по ряду других соображений) все больше ученых и инженеров в настоящее время склоняется к тому, что, говоря словами Миллера, «мы не можем успешно работать с изолированными фонемами» [150].
Другое направление в решении задачи автоматического распознавания устной речи исходит из принятия в качестве основной единицы не фонемы, а целого слова. По отношению к очень ограниченному числу слов (т. е. для словаря очень малого объема) такая задача оказывается разрешимой. В качестве примера можно сослаться на опыты по быстрому вводу данных посредством голоса в вычислительную машину, которые недавно были проведены в США[151]. С этой целью использовалось вспомогательное устройство — 18-канальный прибор для анализа спектра звуков речи. Выход каждого из 18 фильтров подключен к анализатору спектра; выходная цепь каждого анализатора последовательно опрашивается электронным коммутатором, затем преобразуется в трехзначное двоичное число, представляющее амплитуду выходного сигнала. Диктор, работающий с этой машиной, несколько раз повторяет определенное слово, например числительное one; на основе этих данных машина формирует эталон, хранящийся в ее памяти. Затем в машину вводится печатный эквивалент произнесенного слова. После этого машина может распознавать соответствующее слово, вновь произнесенное диктором, сравнивая это слово с эталоном, хранящимся в памяти машины. В опытах, в которых участвовали 9 дикторов-мужчин и 7 дикторов-женщин, автомат оказался в состоянии узнать, какой из дикторов произносит данное слово (при этом автомат угадывал женские голоса безошибочно, а мужские голоса — в 93% случаев). Оказалось также возможным построить программы самообучения, по которым машина может распознавать слова, произносимые новыми дикторами, а затем видоизменять хранимые в памяти эталоны в зависимости от того, как эти слова произносятся новыми дикторами. Но в таких опытах, как и в других, аналогичных, проводившихся несколько ранее[152], использовался очень ограниченный словарь: вычислительная машииа с памятью объемом в 1600 чисел может распознавать не более 83 английских слов со скоростью распознания 1 слова
за 1,5 секунды (при этом длительность произношения слова не может превышать 2 секунд). Если попытаться увеличить число слов, эталоны которых хранятся в памяти машины, то надо будет увеличить и объем памяти. Вместе с тем увеличивается и сложность различения сходных по произношению слов. Должна увеличиться также скорость опроса и количество опросов, используемых для формирования эталона. Но эти требования трудно согласовать друг с другом. Если пользоваться той же самой моделью, т. е. моделью, в основу которой положено слово как распознаваемая единица устного языка, то для достаточно большого словаря задача вообще окажется неразрешимой.
Это можно показать на следующем примере[153]. Согласно статистическому словарю англййского языка Дьюи, 75% слов, употребляемых в английской разговорной речи, покрывается словарем из 736 наиболее употребительных слов. Объем памяти, необходимый машине для хранения информации об этих словах, подсчитывается из учета пропускной способности в 1000 двоичных единиц информации в секунду, которой можно достигнуть при компрессии речи. Средняя скорость передачи одного слова составляет при этом 4 слова в секунду, следовательно, на каждое слово приходится 250 двоичных единиц. Таким образом, для 732 слов нижняя грань требуемого объема памяти составляет примерно 0,2 106 двоичных единиц, что намного превышает возможности существующих машин. Верхняя грань, которую можно определить, исходя из пропускной способности систем связи, не использующих компрессии речи, составляет примерно 6-Ю6 двоичных единиц. Для распознания почти всех слов языка объем памяти нужно увеличить еще в 10 раз, что составит число, большое не только для вычислительной техники, но даже и по сравнению с предполагаемым числом нейронов в мозге. Непреодолимые технические трудности представляет не только объем такой памяти, но и крайне малое время, отведенное на выборку нужного слова из словаря (которое должно быть распознано до распознавания следующего слова). Очевидно, при данной лингвистической модели такая задача оказывается невыполнимой.
Таким образом, ни распознание отдельных вариантов фонем, ни распознание слов порознь не дает ключа к решению задачи. Однако может бьпъ предложено другое ее решение. В языке каждая единица высшего уровня (например, морфема) состоит из последовательности единиц низшего уровня (например, фонем). Чем ниже уровень, тем меньшее число единиц в него входит; если число слов в любом из современных языков не меньше нескольких десятков тысяч, то число фонем, из которых состоят слова, заключено в границах от 10—15 (число фонем в некоторых полинезийских языках) до 70—80 (число фонем в некоторых кавказских языках), а число различительных признаков, пучки которых образуют фонемы, согласно концепции Якобсона и его последователей, не превышает 12. Следовательно, число двоичных единиц, приходящихся на одну фонему, не превышает 7 (и не превышает 4 в таких языках, как полинезийские), а число двоичных единиц, приходящихся на один различительный признак, не превышает 4 (и во многих языках не превышает log2 8=3). Поэтому объем памяти, который требуется для хранения словаря, можно было бы значительно уменьшить, если бы слова (или морфемы) хранились не в виде эталонов, непосредственно соотносимых с акустическими сигналами, а в виде последовательностей единиц низшего уровня — фонем или различительных признаков (причем эти последовательности можно сжать или «свернуть» при сохранении различий между различно звучащими словами за счет использования избыточности языка, как это делается в автоматических словарях для машинного перевода). В таком случае распознавание должно было бы вестись в два этапа: на первом этапе последовательность акустических сигналов перерабатывается в последовательность фонологических различительных признаков. На втором этапе полученная последовательность признаков сравнивается с эталоном — морфемой или словом, хранящимся в памяти в виде последовательности признаков или фонем.
Современные вычислительные машины обладают двумя видами памяти: быстро действующей оперативной памятью меньшего объема и более медленной памятью большого объема. Напрашивается предположение, что оперативную память можно использовать для переработки полученных акустических сигналов в различительные признаки, а память большого объема — для хранения всего словаря. При таком распознавании устной речи объем памяти приблизится к возможностям существующих машин, а время, требуемое для выборки, уже не будет зависеть от длительности произнесения слов на входе, поскольку распознавание акустических сигналов и поиск в словаре может осуществляться в разное время разными частями машины. Подобная машина могла бы осуществить одновременно и автоматическое распознавание звуков, и автоматический анализ фразы, что позволило бы решить такие сложные задачи, как деление фразы на слова; ср. такие случаи, как английск. an aim «цель» — а пате «имя», где чисто фонологический анализ последовательности [зпеїт] не дает возможности правильно разделить ее на слова и требуется анализ смысла всей фразы2 9. It К описанной схеме устройства, предложенной главным образом на основе лингвистических соображений[154], весьма близка описываемая ниже модель распознавания речи человеком, установленная JI. А. Чистович на основании серии замечательных экспериментальных исследований[155]. Однако при сходстве общих схем автоматов и человеческого слухового аппарата конкретные параметры устройств различны (например, различается объем памяти, в которой хранятся единицы словаря, и время выборки из этой памяти). Технические устройства, не совпадающие по своей организации с мозгом, могут использовать другие модели языка; так, машина (или космическое существо типа черного облака, описанное в книге английского астрофизика Хойла), у которой объем памяти существенно больше (а время выборки существенно меньше), чем у человека, могла бы обойтись без деления слов на элементарные единицы-фонемы.
Исследование соотношения между моделью и устройством может представить интерес и для выяснения некоторых вопросов эволюции человека и развития человеческого языка. Сопоставление со звуковой системе^ сигналов у обезьян *2, где отсутствует членение на уровни и каждый из нескольких десятков сигналов является неразложимой единицей, противопоставленной всем остальным сигналам, показывает, что сложная иерархическая организация языка является относительно поздним достижением человека. Очевидно, значительный интерес могло бы представить исследование того, как увеличение системы сигналов, не разлагавшихся на более элементарные единицы, а позднее увеличение словаря слов, делившихся на фонемы, могло способствовать подбору индивидов, у которых генетические мутации приводили к увеличению объема запоминающего устройства[156]. Исследование систем общения у органических существ с нервной системой, существенно отличающейся от человеческой (а также и исследование афазий — нарушений речи, вызываемых поражениями мозга у человека), важно как для решения теоретического вопроса о связи между устройством и моделью языка, так и для исследования возможных систем, с которыми человечество может столкнуться при изучении космоса.
3.