НЕКОТОРЫЕ КОМПОНЕНТЫ ПРОГРАММЫ ДИНАМИЧЕСКОГО МОДЕЛИРОВАНИЯ ИСТОРИЧЕСКИХ ИЗМЕНЕНИЙ В ЯЗЫКЕ РЕЗЮМЕ
В настоящее время с помощью языка программирования JOVIAL разрабатывается алгоритм для моделирования языковых изменений. В этом алгоритме учитывается требование, что каждый член языкового коллектива должен быть представлен своей порождающей и своей распознающей грамматикой.
Единицами взаимодействия, подлежащими моделированию, являются беседы. В процессе действия могут заимствоваться или, наоборот, теряться некоторые правила грамматики. Эти правила не ограничиваются формой, предписываемой одной определенной теорией языка, они могут относиться к любому уровню лингвистического описания или даже ко всем сразу. Модель может быть дополнена так, чтобы учитывались внешнелингвистические факторы, определяющие языковое изменение.1.0. Моделирующая система
Общая система моделирования, предназначенная для проверки гипотез о языковых изменениях во времени, запрограммирована при помощи языка JOVIAL (типа АЛГОЛ) и частично отлажена на электронно-вычислительной машине Philco [4]. Основные гипотезы о природе языковых изменений, учитывавшиеся в модели, включают понятие порождающей грамматики, а также сформулированное Блумфилдом [1] понятие речевого коллектива и Сэпирово понятие стихийного языкового движения [5].
Sheldon Klein, Some Components of a Program for Dynamic Modelling of Historical Change in Language, «International Conference on Computational Linguistics» Preprints, Paper № 14, New York, May 19—21, 1965.
Кроме этих понятий, которые включены в самое модель, программа построена так, что экспериментатор может произвольно менять факторы, влияющие на языковые изменения. Предполагается, что система окажется достаточно гибкой: что она совместима как с трансформационной, так и стратификационной моделью языка, что она может моделировать взаимодействие членов речевого коллектива между собой и с членами других коллективов, что она будет отражать специфические отношения между отдельными членами (например, семейных групп и социальных классов), что она поможет моделировать овладение одним или несколькими новыми языками, а также передачу языка от поколения к поколению.
Основная гипотеза, лежащая в основе системы моделирования, состоит в том, что взаимодействие между членами речевого коллектива является главным фокусом, в котором концентрируются причины языковых изменений. Каждый член речевого коллектива представлен своей порождающей и распознающей грамматикой. Члены коллектива, владеющие иностранными языками, представлены дополнительными грамматиками. Отдельные правила грамматики могут меняться от индивида к индивиду. Грамматики, представляющие новорожденных детей, будут пустыми. Взрослый, вступающий в новый коллектив, но не говорящий на языке последнего, может быть представлен пустой распознающей и пустой порождающей грамматикой данного языка в дополнение к непустым грамматикам языков, которые он знает.
Основными единицами взаимодействия являются формы, произведенные в ответ на другие речевые формы. Первичная функция системы состоит в моделировании бесед между членами речевого коллектива. В течение беседы один индивид производит некоторую форму, а другой пытается проанализировать ее. Если правила анализирующего недостаточны для выполнения задачи, он может заимствовать необходимые правила из порождающей грамматики говорящего, а затем он может использовать их, когда наступает его очередь говорить. Заметим при этом, что двуязычный индивид может использовать при анализе правила всех тех грамматик, которыми он владеет.
Многие решения внутри моделирующей системы принимаются с помощью случайных чисел и функций, определяющих переход из одного состояния в другое. В работе системы используется метод Монте-Карло. В принципе этот термин употребляют, когда речь идет об использовании случайных элементов для решения вполне детерминистских проблем, которые, однако, слишком трудно решить детерминистскими методами. Поэтому для оценки результатов такой системы весьма существенно определить воздействие на них различного выбора случайных чисел. Если модель является детерминистской, то результаты повторных опытов, различающихся наборами случайных чисел иа входе, должны быть достаточно похожими.
2.0. Компоненты системы
Основными компонентами моделирующей системы являются а) таблица, содержащая правила грамматики и параметры, сопоставленные каждому моделируемому индивиду; б) порождающее и распознающее устройства, использующие грамматики взаимодействующих индивидов; в) таблица функциональных отношений, содержащая правила взаимодействия, используемые в данной конкретной модели, и, наконец, г) управляющая система, которая определяет ход моделирования и течение времени и которая периодически сообщает экспериментатору об изменениях, происходящих на отдельных этапах моделирования.
Первый вариант моделирующей системы строится на основе системы автоматического реферирования, предложенной автором [2] и дающей пересказ текста, написанного на ограниченном английском языке, а также краткую схему этого текста. Синтаксический стиль выходного текста контролируется системой параметров, использующих частоту употребления определенных порождающих правил [3].
Таблица функциональных отношений, содержащая определение специфической модели языка, может включать правила, характеризующиеся следующими чертами:
1. Члены одной социальной группы чаще говорят друг с другом, чем с членами других групп.
2. Каждый раз, когда некоторый индивид взаимодействует с определенным членом коллектива, вероятность будущего взаимодействия с этим членом повышается.
Могут вводиться и более сложные функции, отражающие специфические социо-культурные условия.
Другие функции могут обеспечить стирание нечастотных грамматических правил или сдвиг грамматического правила из распознающей грамматики в порождающую. Управляющая система устроена так, что она работает со смешанным репертуаром функциональных отношений, характеризующих самые различные явления. В каждый момент, когда необходимо принять решение, управляющая система просматривает всю таблицу функций, пока не найдет подходящую строку.
3.0. Ручное моделирование
Сущность и функции основных составных частей системы можно продемонстрировать на примере действия столь простой модели, что все операции могут быть выполнены вручную.
Пусть весь коллектив насчитывает шесть членов: Джона, Мэри, Елену, Питера, Германа и Ребенка — и пусть у каждого будет своя отдельная порождающая и распознающая грамматики. Пусть каждому приписывается статус S, варьирующийся от 0,01 до 0,99, и пусть буквы А, В, С, D, Е, F представляют правила, существующие в коллективе (см. таблицу 1).
Содержание правил намеренно не уточняется. Они могут относиться к семантике, синтаксису, морфологии и/или фонологии. Каждое правило снабжается определенным весом. Правило, вес которого ниже определенного порога (в нашей модели этот порог равен 0,1), может входить только в распознающую грамматику. Правило, вес которого больше или равен порогу, должно присутствовать и в порождающей, и в распознающей грамматике индивида. Правило, входящее в обе грамматики, имеет в них одинаковый вес. Правило, вес которого падает ниже определенного минимума (0,01 в данной модели), стирается из обеих грамматик.
Таблица 1 содержит информацию о различных состояниях речевого коллектива в моменты Тitj, где і относится к большому циклу — взаимодействию отдельного индивида с рядом говорящих, a j — к малому циклу — интервалу взаимодействия с отдельным говорящим. При каждом увеличении і управляющая система случайным образом выбирает одного члена в качестве говорящего для большого цикла, а затем выбирает слушающих для данного говорящего. Это определение происходит согласно таблице 2. Каждый раз, когда выбран некоторый слушающий, число
Таблица 1 Т0.0 Т0.1 Т0.2 т0.3 т1.0 Т1.1 Т1.2
Джон
порождение
распознавание
Мэри
порождение
распознавание
Елена
порождение
распознавание
Питер
порождение
распознавание
Герман
порождение
распознавание
Ребенок
порождение
распознавание
S 0,8 S 0,8
АО,5 АО,47 С 0,5 С 0,48
D0,5 DO,53 АО,5 АО,47 В 0,04 В 0,02
С 0,5 С 0,48
D 0,5 D 0,53
S 0,7 S 0,72 S 0,7 S 0,64
АО,5 В 0,5 D0,5
АО,5 В72.
То 2
Управляющая система ищет нового слушающего для Мэри. Мэри сама исключена как кандидат.
Следующей идет Елена. Вероятность того, что Мэри будет говорить с Еленой, согласно формуле (1) таблицы 2, равна:
0,1 1 | 0,72 — 0,4 | 3,2 •
Предположим, что Елена отвергается в качестве слушателя, потому что датчик случайных чисел произведет величину, большую чем 7^2 • Предположим, что отвергнут и
следующий кандидат Питер. Тогда управляющая система избирает в качестве следующего кандидата Германа. Предположим теперь, что после соответствующих расчетов Герман выбран в качестве слушающего. Пусть Мэри сделала высказывание:
G(A, 2В).
Герман должен заимствовать правило А из порождающей грамматики Мэри для завершения анализа. Правило А входит в распознающую грамматику Германа и по формуле (2) таблицы 2 получает вес:
0- (0~°’33) =0,07.
Поскольку этот вес меньше, чем 0,1, то данное правило не включается в порождающую грамматику Германа. Новый вес для правила В определяется следующим образом:
0,5— (0’5~°-’.671 = 0,53.
Вес правил, не участвующих в анализе, уменьшается на 0,02. Соответственно вес распознающего правила D у Германа падает ниже 0,01, и оно вычеркивается из его распознающей грамматики.
Статус S для Мэри получает величину:
0,72—= 0,7.
То.з
Ребенок является следующим возможным кандидатом на роль слушающего. Предположим, что управляющая система принимает Ребенка в качестве слушающего и Мэри говорит ему:
G(A, В, D).
Ребенок должен заимствовать все эти правила из грамматики Мэри, и каждое получает вес в соответствии с формулой (2) таблицы 2, а именно:
0- (0~9,33) =0,07.
Новая величина статуса S для Мэри принимает вид:
OJ-iP’l-0’4) =0,64.
Управляющая система исчерпала список кандидатов на роль слушающего, и нужно случайным способом выбрать нового говорящего.
Ті.о
Пусть в качестве нового говорящего выбран Питер.
Пусть Джон и Мэри отвергнуты в качестве слушающих и на эту роль выбрана Елена.G (Е, F)
Правило Е имеется в распознающей грамматике Елены, и его новый вес принимает вид:
0,5- (0’5~°’5) =0,5,
т. е. остается неизменным. Вес правила F получается:
0,06- (0’065~°’5) = 0,15,
и согласно формуле (4) таблицы 2 правило F входит в ее порождающую грамматику.
Вес правил, которые Елена не употребляла при анализе, уменьшается на 0,02.
Новое значение величины статуса S для Питера равно:
0,3—(0,3-0,4) — 0,32.
Тіл
Предположим, что в качестве следующего слушающего для Питера выбран Герман и что Питер говорит:
G (ЗВ, F).
Правило В есть в грамматике Германа и его новый вес будет:
0,53 — —-3~0,75) =0,57.
Правило F заимствуется из грамматики Питера, и оно получает в грамматике Германа вес:
0- (°+25> — 0,05.
Неиспользованные правила Германа уменьшают свой вес на 0,02 каждое. Новая величина статуса S для Питера равна:
0,32- (°’32~°’6) = 0,38.
Т,.2
Предположим, что следующим слушающим выбирается Ребенок и что Питер производит:
G(2B, Е, F).
Правило В имеется в распознающей грамматике Ребенка, и его новый вес составляет:
0,07—L0’-01t.-0’5). = o,i6,
О
Вследствие этого правило В входит в порождающую грамматику Ребенка.
Правила Е и F Ребенок должен заимствовать у Питера, и каждое из них входит в распознающую грамматику Ребенка с весом:
0_jO-0I25)_ = 0 05
5
Вес каждого правила, не использованного в анализе, уменьшается на 0,02.
Новая величина статуса S для Питера составляет:
0,38— (°’38-°’4) ~ 0,38.
О
Предшествующая миниатюрная модель, выполненная вручную, представляется достаточной в качестве иллюстрации того, как действует моделирующая система. Предполагаемые машинные эксперименты будут производиться с моделью, включающей от 50 до 100 индивидов, каждый из которых обладает несколькими сотнями грамматических правил.
Однозначное распознавание может быть достигнуто использованием веса правил для определения тех из них, которые должны употребляться чаще. Функции, приведенные в таблице 2, могут быть расширены с точки зрения их числа и их содержания.
Желательно ввести специальные правила для взаимодействия между родителями и детьми, между супругами, между членами одной возрастной группы и т. п., а также включить механизм, определяющий рождение и смерть различных членов. Статус S может быть разделен на несколько весов, относящихся к социальному положению, возрасту, географической близости и т. п.
Идеальной проверкой ценности модели является ее предсказующая сила. Можно надеяться, что удастся предугадать определенное состояние языка, используя модель определенного более раннего этапа. Основной проблемой при этом является чувствительность модели к выбору величин параметров и констант. Например, константы в формулах таблицы 2, по-видимому, приводят к тому, что Ребенок слишком быстро обучается языку. Можно было бы ввести более значительное снижение веса для неиспользованных правил, и это уменьшило бы темп обучения языку. Эта необходимость различных проб при введении величин будет все увеличиваться с усложнением модели. Поэтому начать следует с простых моделей, постепенно повышая их сложность.
Пока что автор стремится смоделировать стабильность языка. Он хочет построить модель речевого коллектива, включающего около 50 членов, каждому из которых поставлена в соответствие простая грамматика непосредственных составляющих (английского языка), и смоделировать период в 3—4 поколения — причем язык в начале моделирования, разумеется, не должен сильно отличаться от языка, получающегося в конце17,
1 L. Bloomfield, Language, New York, 1933. [Русское издание: Л. Блумфилд, Язык, М., 1968.]
2 S. Klein, Automatic Paraphrasing in Essay Format, «Mechanical Translation», 8, 1965, 3—4, стр. 68—83.
3 S. Klein, Control of Style with a Generative Grammar,
«Language», 41, 1965, 4, стр. 619—631.
4 S. Klein, Dynamic Simulation of Historical Change in
Language Using Monte Carlo Techniques, SP-1908, System Development Corporation, Santa Monica, December 1964.
6 E. S a p і r, Language, New York, 1921 (русский перевод:
Эдуард С э п и p, Язык. Введение в изучение речи, перевод
с английского А. М. Сухотина, М.— Л., 1934).