ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

ТЕХНОЛОГИЯ МАШИННОГО ПЕРЕВОДА

Чтобы по достоинству оценить различия между отдельными систе­мами перевода (и оценить способы их применения), необходимо иметь представление:

— во-первых, о тех общих типах (categories), на которые они могут быть расклассифицированы;

— во-вторых, о различных целях, для которых могут использо­ваться переводы (каким бы способом они ни были получены);

— в-третьих, об областях применения, на которые рассчитаны рассматриваемые системы;

— в-четвертых, о некоторых особенностях лингвистических ме­тодов, применяемых в системах МП для решения проблемы перевода.

Типы систем

Средства компьютеризации перевода (computerized translation tools) подразделяются на три основных типа (в зависимости от того, насколько далекие цели ставят перед собой разработчики): системы машинного перевода (МП), системы человеко-машинного перевода (ЧМП) и терминологические банки данных (ТБД).

Системы МП предназначены для осуществления перевода без вмешательства человека. Это не исключает ни предварительной под­готовки текста (если только речь не идет о разметке границ состав­ляющих, о снятии различных видов омонимии, например омонимии частей речи, и т. п.), ни постредактирования (поскольку оно является нормой и тогда, когда перевод выполняется человеком). Однако весь процесс перевода — с того момента, как введен входной текст, и до вывода выходного текста — целиком обеспечивается самой системой МП без какого-либо участия человека, с использованием только специальных программ, обширных словарей и наборов лингвистических правил (в той мере, в какой они представлены в конкретной системе). Если задачи, на решение которых претендуют те или иные средства компьютеризации перевода, упорядочить по убыванию их сложности, то задачи МП окажутся в самом начале такой шкалы.

Системы ЧМП образуют два подкласса: системы машинного пере­вода с участием человека (МПУЧ) (human-assisted machine transla­tion) и системы человеческого перевода с участием машины (ЧПУМ) (machine-assisted human translation).

На нашей шкале те и другие системы будут занимать позиции, соответственно более удаленные от ее начала. О машинном переводе с участием человека говорят применительно к тем системам, в которых перевод как таковой осуществляется машиной, но по ходу его осуществления она может на тех или иных этапах вступать во взаимодействие с человеком- интерредактором (human monitor) — например, просить его опре­делить часть речи или значение обнаруженного омонима, указать, к чему относится то или иное словосочетание, выбрать для некото­рого слова или словосочетания один из нескольких переводных эквивалентов, предлагаемых для него в словаре системы, и т. п. Человеческий перевод с участием машины имеет место в тех случаях, когда перевод как таковой обеспечивается человеком (в режиме „он-лайн"), но в некоторых заранее обусловленных ситуациях чело­век может прибегать к помощи машины: это возможно, например, при поиске слов в локальных словарях или тезаурусах, при дистан­ционном обращении к терминологическим банкам данных, при вы­борке хранящихся в памяти машины примеров употребления слов и словосочетаний, а также при выполнении различных операций, связанных с экранным редактированием текста,— например, опера­ций форматирования. Этап предварительной подготовки текста в системах ЧМП (особенно ЧПУМ) чаще всего отсутствует (система не нуждается в помощи человека — напротив, эта ее роль состоит в оказании ему помощи). Зато постредактирование в них, как прави­ло, вполне уместно.

Терминологические банки данных (ТБД) занимают на введенной выше шкале последнее место. Обращение к ним происходит нередко не в ходе самого процесса перевода (переводчик не обязательно ра­ботает в режиме „он-лайн"), но еще до того, как человек начнет свою работу. Более того, к банку данных может в принципе не предусмат­риваться доступа в режиме „он-лайн" — он может служить только для подготовки печатных глоссариев по соответствующим предмет­ным областям. ТБД включает обычно только техническую термино­логию, но не общеупотребительные слова (их пользователь уже знает).

Основное достоинство ТБД заключается не в том, что он автоматизирован (даже в режиме „он-лайн" поиск слов происходит не с большей скоростью, чем при пользовании обычным словарем), а в том, что он содержит все самые последние данные: техни­ческая терминология постоянно меняется, и публикуемые словари к тому времени, как они выходят из печати, успевают в значитель­ной степени устареть. Кроме того, ТБД может превосходить такие словари по объему, поскольку в его составлении может принимать активное участие большее число специалистов: все его пользователи.

Цели перевода

Говоря о практических целях, на которые может быть ориентиро­ван перевод, следует разграничивать прежде всего такие две зада­чи, как сбор информации vs. ее распространение. Классическим слу­чаем первой задачи можно считать сбор разведывательных данных: при том количестве сведений, которое требуется обработать, на тщательный перевод каждого документа обычным способом (то есть с помощью человека) не хватает, конечно, ни времени, ни средств, ни энтузиазма. Перед учеными чаще встает другая дилемма: ма­териалов, с которыми нужно ознакомиться, и так уже больше, чем можно было бы прочесть за остающееся на это время, а мучиться над текстами, написанными на иностранных языках, вообще не имеет смысла — настолько мала вероятность, что тот или иной конкретный текст будет действительно представлять интерес для работы. В прош­лом роль lingua franca в научном общении играл английский язык;

теперь, однако, в силу целого ряда причин — начиная с усиления чувства национального достоинства и кончая распространением передовой технологии по всему миру — оснований для этого утверждения становится все меньше и меньше. В результате тем ученым, которые ограничиваются английским языком, все труднее держаться в курсе последних достижений в своей области знаний. Если бы была возможность получать переводы очень быстро и за небольшую плату, то — в пределах той тематики, по которой чита­тель является специалистом,— для целей сбора информации вполне достаточно было бы и низкокачественных переводов.

Читатель мог бы по крайней мере определить, стоит ли тратить силы и средства на более тщательный (и более дорогостоящий) перевод тех же текстов. А скорее всего он понял бы их содержание достаточно хорошо, чтобы вообще обойтись без более тщательного перевода.

Классическим случаем перевода в целях распространения инфор­мации является его использование при экспорте техники: если про­мышленная фирма заинтересована в продаже своей продукции за пределами своей страны, ей обычно приходится предоставлять поку­пателю документацию на том языке, который он предпочитает. В прошлом американские компании обходили эту проблему, требуя, чтобы покупатели изучали английский язык; другие экспортеры (например, немцы) никогда не могли позволить себе такую роскошь. В будущем, по мере роста чувства национального достоинства, англоязычная документация будет, по-видимому, иметь все меньшее хождение. Чем больше компаний начинает ориентироваться на внеш­ний рынок, тем чаще возникает потребность в переводе. И, что еще более существенно, тексты, предназначенные для распространения (экспорта) информации, должны переводиться весьма тщательно: перевод должен быть „правильным" и ясным. Квалифицированных же переводчиков технических текстов найти трудно, работают они медленно (переводя в среднем от 4 до 6 страниц в день), и стоимость их работы весьма высока. Новый подъем интереса к МП во многом вызван именно перспективой его применения для распространения информации.

Предполагаемые области применения (Ч)МП

Хотя перевод литературных произведений — это тоже частный лучай распространения информации, спрос на машинный перевод удожественной литературы практически отсутствует: в отличие от феры технического перевода здесь нет недостатка в переводчиках; айв любом случае машины плохо справляются с художественным ереводом. Напротив, спрос на технический перевод ошеломляет уже амим объемом требуемых переводов; к тому же огромные трудности оздает необходимость постоянно накапливать и поддерживать в ра­бочем состоянии адекватную техническую терминологию, а также следить за последовательностью ее употребления в тексте.

Что еще хуже, во многих отраслях техники наблюдается резкая нехватка квалифицированных переводчиков, и совершенно очевидно, что при всей похвальности таких мер, как дополнительное поощрение пере­водческого труда, снять остроту проблемы технического перевода этим способом никогда не удастся. Единственное, на что можно на­деяться в плане решения данной проблемы, это на увеличение производительности человеческого труда за счет использования вы­числительной техники: на этом пути найдут себе место и полностью автоматизированные системы МП, и не претендующие на такую самостоятельность системы ЧМП, и терминологические банки дан­ных, работающие в режиме „он-лайн", и средства экранного редакти­рования. Весьма удачная ситуация складывается здесь в связи с проблемами стиля: при художественном переводе основной упор делается именно на стилистические требования — возможно, даже в ущерб требованию абсолютной точности в передаче содержания (это особенно характерно для поэзии). При техническом же переводе первостепенное значение по праву придается точности — пусть даже в ущерб стилистической удачности изложения. Системы (Ч)МП с точки зрения стилистики неудовлетворительны; зато с точки зрения терминологии они превосходны — так что в наибольшей степени они пригодны как раз для технического перевода.

Лингвистические методики

Методики МП можно рассматривать с разных точек зрения. Мы будем исходить из следующих противопоставлений: прямой vs. непрямой способ перевода; перевод через язык-посредник vs. исполь­зование межъязыковых операций (transfer); локальный vs. глобаль­ный подход к обработке текста (практически реализуются не все из восьми возможных комбинаций выделенных признаков). С позиций перечисленных противопоставлений мы и будем характеризовать в дальнейшем изложении описываемые нами системы МП. В свое время при сравнении различных систем МП всегда упоминалось об „исполь­зовании семантики": те системы, в которых использовалась семанти­ка, объявлялись „хорошими", те, в которых она не использовалась,— „плохими".

Теперь уже обо всех системах МП утверждается — из очевидных соображений,— что они используют семантику, так что это не может больше рассматриваться в качестве различительного признака.

Прямой способ перевода имеет место в тех системах, которые (как, например, система GAT) с самого начала ориентированы на перевод с одного определенного языка на другой столь же опреде­ленный язык. Такие системы ограничиваются только тем минимумом операций над текстом, который безусловно необходим для полу­чения требуемого перевода. Например, неоднозначность устраняется лишь в той мере, в какой это нужно для перевода именно на данный выходной язык, безотносительно к тому, что может потребоваться для другого языка. Напротив, непрямой способ перевода имеет место в тех системах, в которых (как, например, в системе EUROT- RA) анализ текста на входном языке и синтез текста на выходном языке представляют собой принципиально независимые процедуры. В частности, устранение неоднозначности производится в тех преде­лах, в которых это необходимо, чтобы установить „смысл" входного текста (какой бы тип „смыслового" представления при этом ни использовался), безотносительно к тому, на какой выходной язык (или языки) данный текст будет переводиться.

О переводе через язык-посредник говорят в связи с теми сис­темами, в которых (как, например, в системе СЕТА) представле­ние „смысла" входного текста предполагается независимым от како­го-либо естественного языка и непосредственно используется для синтеза текста на выходном языке. Идея языка-посредника основы­вается на понятии лингвистических универсалий, являющихся пред­метом поиска и полемики как лингвистов, так и философов. Имеется в виду, что представление той или иной единицы значения должно быть одним и тем же независимо от того, на каком языке (или в рамках какой грамматической структуры) эта единица получает свое выражение. Об использовании межъязыковых операций принято говорить в тех случаях, когда (как, например, в системе TAUM) глубинное представление „значения" структурно-грамматической единицы (например, предложения) может быть различным в зави­симости от того языка, который был исходным при анализе рассмат­риваемой единицы или должен быть выходным при ее синтезе. Отсюда следует, что в процесс перевода должен включаться еще один, третий этап, на котором должен происходить переход от представлений значения, специфических для одного языка, к соответствующим им представлениям, специфическим для другого языка; этот этап и назы­вается этапом Межъязыковых Операций [44]. Таким образом, в целом процесс перевода с использованием межъязыковых операций пред­стает как последовательное осуществление сначала анализа, затем межъязыковых операций, а после них — синтеза. Противо­поставление двух типов перевода — перевода через язык-посредник и перевода с использованием межъязыковых операций — примени­мо не ко всем системам МП; в частности, оно нерелевантно для систем, реализующих прямой способ перевода, поскольку в них не предусматривается построение формального представления „значе­ния".

Противопоставление локального vs. глобального подходов к об­работке текста является скорее количественным, чем качественным. К системам, опирающимся на локальный подход, относят такие системы, в которых (как, например, в системе SYSTRAN) основными единицами, управляющими процессом анализа, являются слова, и анализ фактически сводится к выполнению для каждого слова отдельной определяемой им процедуры, направленной на то, чтобы установить — пользуясь сведениями о словах, расположенных слева и/или справа от обрабатываемого слова,— часть речи, к которой от­носится это слово, возможный факт вхождения его в тот или иной идиоматический оборот, а также его конкретный „смысл". В таких системах серьезную проблему представляет, в частности, обработка омографов (слов, различающихся своей частью речи и/или дери­вационной историей — а следовательно, и значением,— но имеющих одинаковое написание), поскольку построение общей структуры предложения как такового в них не предусматривается. К системам, опирающимся на глобальный подход, относят системы типа METAL, в которых значение слова определяется его контекстом в рамках общей структуры предложения (или, реже, абзаца). Здесь, в противо­положность системам предыдущего типа, омография не создает, как правило, особых проблем, поскольку учитывается гораздо более широкий контекст, чем в системах с локальным подходом к обра­ботке текста.

Историческая справка

Среди открытых публикаций имеется несколько обзорных работ, в которых достаточно полно и всесторонне описываются разработки в области МП (Bruderer, 1977) и их история (Hutchins, 1978). Чтобы как-то продемонстрировать существующую в данной области преемственность, не превышая при этом допустимого объема журнальной статьи, мы ограничимся в своем кратком историческом обзоре только теми системами и проектами, которые уже прекрати­ли свое существование, но на основе которых были разработаны последующие системы или проекты, представляющие интерес с со­временной точки зрения. Это джорджтаунская система GAT, гре- нобльская система СЕТА, техасская система METAL, монреальская система TAUM и, наконец, система ALP, разработанная в Универ­ситете Бригема Янга.

В Джорджтаунском университете была создана одна из самых первых систем МП. Работы по ее созданию начались в 1952 г. и фи­нансировались за счет государственных ассигнований; в 1964 г. построенная действующая система GAT была передана в Нацио­нальную лабораторию в Оук Ридже, в распоряжение Комиссии по атомной энергии, а также в Евратом — аналогичное европейское научное учреждение в Испре (Италия). Обе системы использовались в течение многих лет для перевода на „английский" язык русских текстов по физике. По своему качеству выходные тексты сильно уступали переводам, выполняемым человеком, однако для тех целей, на которые была рассчитана система GAT,— для беглого просмотра материалов и оценки их содержания в том отношении, представляет ли оно интерес,— эта система имела все же явное преимущество перед теми двумя возможностями, которые только и могли составить ей альтернативу: получением переводов за счет более медленного и дорогостоящего человеческого труда или, что еще хуже, отсутстви­ем каких бы то ни было переводов. В Евратоме систему GAT заменили другой только в 1976 г.; в Национальной лаборатории в Оук Ридже она, по-видимому, работала по меньшей мере до 1979 г. (J о г d a n et al., 1976, 1977), а быть может, и дольше.

Стратегия перевода в системе GAT строилась в рамках прямого локального подхода: предусматривалась просто пословная замена исходных слов на их переводные эквиваленты, после которой осу­ществлялись немногочисленные позиционные перестановки, позво­лявшие получить нечто отдаленно напоминающее текст на англий­ском языке. Очень скоро под „словом" стали понимать либо отдельное слово, либо последовательность слов, образующую „идиому". Систе­ма GAT не опиралась на сколько-нибудь серьезную лингвистическую теорию; математическое ее обеспечение — при тогдашнем уровне развития программирования — также не имело под собой теорети­ческой базы. Работа над системой сводилась к тому, что ее приспо­сабливали для обработки определенного текста, затем модифици­ровали применительно к следующему тексту и т. д. В конечном итоге была получена система, не обладающая внутренней члени- мостью и столь громоздкая, что совершенствовать ее было практи­чески невозможно: после ее установки в Национальной лаборатории в Оук Ридже и в Евратоме серьезных модификаций в нее уже не вно­силось. Весьма примечателен в этой связи тот факт, что она про­должала использоваться в течение столь длительного времени: это

показывает, насколько терпимыми могут быть пользователи, если они отчаянно нуждаются в переводческом обслуживании и не имеют при этом никакого реального выбора, кроме МП, пусть даже и низко­качественного.

Исследования в рамках Джорджтаунского проекта работ по МП завершились в середине 60-х годов. Один из его участников, Питер Тома, создал затем компанию LATSEC, разработавшую систему SYSTRAN. В 1970 г. эта система была установлена в Отделе зару­бежной технологии ВВС США на авиационной базе ВВС в Райт Пат­терсоне вместо системы Mark-Н фирмы IBM; в 1976 г. она сменила систему GAT в Евратоме, где продолжает использоваться и до сих пор для перевода русских текстов на английский язык в связи с зада­чами сбора информации. К системе SYSTRAN мы вернемся в сле­дующем разделе.

Система СЕТА *

В 1961 г. во Франции в Гренобльском университете начались работы по машинному переводу с русского языка на французский. В отличие от системы GAT проект СЕТА основывался на четкой теоретической концепции языка — поскольку авторы этого проекта имели возможность уже в течение нескольких лет наблюдать разви­тие событий в Джорджтауне и в других центрах исследований по МП и учиться на этом опыте. В частности, было решено не огра­ничиваться отдельными перестановками слов, осуществляемыми по эвристическим правилам, базирующимся на внутрифразовой инфор­мации (как это делается при локальном подходе), но производить пофразный анализ текста с построением для каждого предложения его структуры зависимостей (то есть ориентироваться на глобаль­ный подход); имея в своем распоряжении результаты такого целост­ного анализа предложения, можно было достаточно серьезно подойти и к задаче синтеза. Теоретические принципы, положенные в основу системы СЕТА, предусматривали переход к языку-посреднику (то есть к нейтральному, независимому от конкретного естественного языка представлению значения) на уровне грамматики и использо­вание межъязыковых операций (то есть переход от представления значения, специфического для одного естественного языка, к пред­ставлению, специфическому для другого языка) на уровне лексики (словаря). Поскольку теория программирования находилась тогда еще в зачаточном состоянии, при разработке математического обес­печения системы СЕТА ее создателям пришлось опираться преиму­щественно на язык ассемблера ЭВМ фирмы IBM (Hutchins,

1978).

Система СЕТА продолжала разрабатываться в течение десяти лет; за период 1967—1971 гг. с ее помощью был переведен на французский язык массив русских текстов по математике и физике общим объемом 400 ООО слов. Основные выводы, сделанные в резуль­тате этих исследований, состояли в том, что использование языка- посредника приводит к потере информации, существенной для выбо­ра средств выражения в тексте перевода; если же некоторая фраза не может быть проанализирована полностью, она при таком подходе либо получает очень слабый перевод, либо вообще не получает пере­вода. Разработчики системы СЕТА выяснили, что для действующей системы принципиальное значение имеет сохранение поверхностных показателей, позволяющих выбирать те или иные способы формули­ровки переводного текста (для индоевропейских языков характерно, в частности, существенное структурное сходство, не говоря уже о большом числе родственных слов, и при переводе этим можно успешно пользоваться); чрезвычайно важно также, чтобы в системе имелись средства, обеспечивающие устойчивость ее работы при отка­зах отдельных блоков; при переводе через язык-посредник добиться этого весьма сложно, а то и невозможно; зато метод межъязыковых операций в этом отношении вполне эффективен.

В 1971 г. в Гренобле перешли на новый тип ЭВМ (и соответст­венно— на новый тип программного обеспечения), что ускорило принятие решения о прекращении работ над системой СЕТА. Немед­ленно вслед за этим была начата разработка нового проекта — системы GETA, опирающейся уже только на метод межъязыковых операций с гарантируемой им устойчивостью работы системы при отказах. При создании ее математического обеспечения вновь су­щественно использовался язык ассемблера, что должно было вскоре повлечь за собой пагубные последствия — причины этого сейчас для всех очевидны. К рассмотрению системы GETA мы вернемся ниже.

Система METAL*

В 1961 г. в Техасском университете — сотрудники которого имели ту же возможность учитывать опыт своих предшественников, что и гренобльские ученые,— был создан за счет государственных ассиг­нований Центр лигнгвистических исследований (ЦЛИ), задача кото­рого состояла в осуществлении проекта METAL, также имевшего целью исследования в области машинного перевода, но уже не с рус­ского языка на английский, а с немецкого (фактически исследова­ния по МП в Техасском университете были начаты в 1956 г.). ЦЛИ взял на вооружение трансформационную концепцию Хомского, кото­рая в это время быстро завоевывала популярность среди лингвистов; в рамках этой концепции был построен синтаксический язык-по­средник, опирающийся на понятие глубинной структуры. Вскоре об­наружилось, что трансформационная лингвистика как таковая пока еще недостаточно разработана, чтобы служить основой действующей системы, и был принят ряд компромиссных решений. Конечным ре­зультатом явилась программа на языке программирования ФОРТРАН, содержавшая в 1974 г. 80 000 строк и организованная в виде 14 оверлейных сегментов; работала она на компьютере CDC-6600, целиком использовавшемся только для этой цели. Перевод осуществлялся непрямым способом; три основных этапа — анализ, межъязыковые операции и синтез — были разбиты на 14 подэтапов: по одному на каждый из 14 оверлейных сегментов,— и весь процесс обработки текста требовал невероятных затрат машинного време­ни — как на работу центрального процессора, так и на операции считывания данных из огромных информационных массивов и записи их в эти массивы. Государственное финансирование разработок по МП в США в это время в любом случае постепенно сводилось на нет, и проект METAL вскоре прекратил свое существование.

Через несколько лет благодаря небольшой правительственной субсидии он возродился вновь. Имевшаяся программа была пере­писана с ФОРТРАНа на ЛИСП и стала работать на ЭВМ DEC-10; одновременно эта программа была сведена ровно к трем основным этапам (анализ, межъязыковые операции и синтез) и сокращена до 4000 строк кода; это позволило обойтись тремя оверлейными сегментами, а потребность в машинных ресурсах снизилась в десять раз. Хотя интерес к этим разработкам со стороны правительства США в дальнейшем опять ослабел, их начал финансировать Отдел языкового обслуживания корпорации „Siemens AG“ в Мюнхене; на­чиная с 1980 г. все работы по данному проекту ведутся только на средства этой корпорации.

Система TAUM [45]

В 1965 г. в Монреальском университете начал разрабатываться проект TAUM, финансируемый канадским правительством. Это был, по-видимому, первый из проектов систем МП, в котором строго выдерживался принцип перевода с использованием межъязыковых операций. Математическое обеспечение системы TAUM создавалось на языке программирования ФОРТРАН для ЭВМ CDC 6600 (впоследствии CYBER-173). Вначале исследования имели более или менее свободную направленность, затем канадское правительство стало ориентировать систему TAUM на конкретные задачи. Слу­чайное замечание, которое обронил, устав от однообразия своей работы, один из переводчиков Канадского метеорологического центра (КМЦ), привело к созданию побочного проекта TAUM-METEO. Для прогнозов погоды, составлявшихся на английском языке, и тогда уже была характерна значительная степень унифицирован­ности как в стилистическом, так и в лексическом отношении. Отчасти именно по этой причине работа по их переводу на французский язык оказывалась очень монотонной, что приводило к исключительно высокой текучести кадров среди переводчиков метеорологической службы: в среднем переводчики менялись каждые полгода. В 1975 г. группе, работавшей над проектом TAUM, было поручено создать действующую систему англо-французского МП для перевода прогно­зов погоды. В 1976 г. была представлена система-прототип, а к 1977 г. система МЕТЕО была сдана в промышленную эксплуатацию. Эта система будет рассмотрена в следующем разделе.

Новой задачи долго ждать не пришлось: потребовалось, чтобы система TAUM была в сжатые сроки адаптирована для перевода с английского на французский язык комплекта руководств по техни­ческому обслуживанию и ремонту авиационной техники общим объемом в 90 миллионов слов (перевод был нужен срочно, и в случае задержки с подготовкой системы его предстояло начать вручную). С этого момента разработчики системы TAUM сосредоточили свои усилия исключительно на обработке авиатехнических руководств. Анализ входного текста осуществлялся в имевшейся версии системы преимущественно на синтаксических основаниях, и, чтобы преодолеть те трудности, которые при этом возникали (особенно в связи с употре­бительностью в авиатехнических руководствах многокомпонентных цепочек существительных), для системы TAUM-AV1AT10N стали разрабатываться начиная с 1977 г. мощные средства семантического анализа.

ОА*

В 1979 г. система была опробована, и стало ясно, что к промыш­ленному использованию в требуемые сроки она готова не будет. Канадское правительство организовало ряд оценочных испытаний для выявления возможностей системы. Среди прочего обнаружилось (G е г v a і s,1980), что стоимость составления словарных статей непомерно высока (на одну статью затрачивалось 3,75 человеко-ча­са, что стоило 35—40 канадских долларов); стоимость работы системы непосредственно в процессе МП (6 центов за слово) также оказалась слишком высокой в сравнении со стоимостью работы пере- водчика-человека (8 центов за слово), особенно если учитывать стоимость постредактирования (для переводов, получаемых с по­мощью системы TAUM, она составляла 10 центов за слово, в то вре­мя как для переводов, выполненных человеком,— 4 цента за слово). Система TAUM-AV1AT10N была еще экономически нерентабельной. По этой и по ряду других причин — в частности, в связи с неблаго­приятным экономическим положением Канады — работы по проекту TAUM в 1981 г. были прекращены. В последнее время в Канаде заметны признаки возрождающегося интереса к МП. Согласно уст­ному сообщению Пьера Изабеля, одного из прежних разработчиков системы TAUM, были затребованы обзоры, характеризующие совре­менное состояние дел в этой области. Однако нового проекта исследо­ваний по проблеме МП пока не предусматривается.

Система ALP [46]

В 1971 г. в Университете Бригема Янга начались работы по проекту, называемому ниже проектом BYU [47]. Проект имел целью разработку системы перевода религиозных текстов мормонов с анг­лийского языка на ряд других, в первую очередь на французский, немецкий, португальский и испанский. Первоначально планировалось создать полностью автоматическую систему МП, основанную на грамматике юнкций (junction grammar) (Lytle et al., 1975). Од­нако в 1973 г. акцент был сдвинут в сторону человеко-машинного перевода (ЧМП отличается тем, что система не предпринимает самостоятельных попыток анализа предложений с использованием предварительно введенных в нее лингвистических правил; вместо этого как в процессе анализа, так и при формировании окончатель­ного текста перевода она должна опираться прежде всего на взаимо­действие с человеком). Построенная в результате интерактивная система перевода ITS [48] способна была производить (с помощью человека) глобальный анализ предложения, а затем (опять-таки с помощью человека) — межъязыковые операции, осуществляемые с позиций непрямого подхода к процессу перевода.

Разработки в рамках проекта BYU не привели к созданию действующей системы (поскольку стоимость аппаратного оборудова­ния, а также объем и сложность процедур взаимодействия с челове­ком исключали возможность ее рентабельного использования), и мор­монские церковные власти стали постепенно сворачивать в универси­тете работы по этому проекту. В 1980 г. группа участвовавших в нем программистов перешла в корпорацию „Weidner Communi­cations" и включилась в разработку систем этой корпорации — пол­ностью автоматических систем МП, основанных на прямом подходе к процессу перевода. Приблизительно в то же время большинство остальных участников проекта BYU, уйдя из университета, объедини­лись в компанию ALPS * и продолжили работу над системой ITS. Обе упомянутые системы в настоящее время имеются в продаже и пользуются большим спросом; они будут рассмотрены нами в сле­дующем разделе обзора. В Университете Бригема Янга также про­должается работа в области МП, но уже в значительно меньших масштабах и с более скромными требованиями (см., например, Me lb у, 1982).

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме ТЕХНОЛОГИЯ МАШИННОГО ПЕРЕВОДА: