ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн

ТЕХНОЛОГИЯ МАШИННОГО ПЕРЕВОДА

Чтобы по достоинству оценить различия между отдельными системами перевода (и оценить способы их применения), необходимо иметь представление:

— во-первых, о тех общих типах (categories), на которые они могут быть расклассифицированы;

— во-вторых, о различных целях, для которых могут использоваться переводы (каким бы способом они ни были получены);

— в-третьих, об областях применения, на которые рассчитаны рассматриваемые системы;

— в-четвертых, о некоторых особенностях лингвистических методов, применяемых в системах МП для решения проблемы перевода.

Типы систем

Средства компьютеризации перевода (computerized translation tools) подразделяются на три основных типа (в зависимости от того, насколько далекие цели ставят перед собой разработчики): системы машинного перевода (МП), системы человеко-машинного перевода (ЧМП) и терминологические банки данных (ТБД).

Системы МП предназначены для осуществления перевода без вмешательства человека. Это не исключает ни предварительной подготовки текста (если только речь не идет о разметке границ составляющих, о снятии различных видов омонимии, например омонимии частей речи, и т. п.), ни постредактирования (поскольку оно является нормой и тогда, когда перевод выполняется человеком). Однако весь процесс перевода — с того момента, как введен входной текст, и до вывода выходного текста — целиком обеспечивается самой системой МП без какого-либо участия человека, с использованием только специальных программ, обширных словарей и наборов лингвистических правил (в той мере, в какой они представлены в конкретной системе). Если задачи, на решение которых претендуют те или иные средства компьютеризации перевода, упорядочить по убыванию их сложности, то задачи МП окажутся в самом начале такой шкалы.

Системы ЧМП образуют два подкласса: системы машинного перевода с участием человека (МПУЧ) (human-assisted machine translation) и системы человеческого перевода с участием машины (ЧПУМ) (machine-assisted human translation).

На нашей шкале те и другие системы будут занимать позиции, соответственно более удаленные от ее начала. О машинном переводе с участием человека говорят применительно к тем системам, в которых перевод как таковой осуществляется машиной, но по ходу его осуществления она может на тех или иных этапах вступать во взаимодействие с человеком- интерредактором (human monitor) — например, просить его определить часть речи или значение обнаруженного омонима, указать, к чему относится то или иное словосочетание, выбрать для некоторого слова или словосочетания один из нескольких переводных эквивалентов, предлагаемых для него в словаре системы, и т. п. Человеческий перевод с участием машины имеет место в тех случаях, когда перевод как таковой обеспечивается человеком (в режиме „он-лайн"), но в некоторых заранее обусловленных ситуациях человек может прибегать к помощи машины: это возможно, например, при поиске слов в локальных словарях или тезаурусах, при дистанционном обращении к терминологическим банкам данных, при выборке хранящихся в памяти машины примеров употребления слов и словосочетаний, а также при выполнении различных операций, связанных с экранным редактированием текста,— например, операций форматирования. Этап предварительной подготовки текста в системах ЧМП (особенно ЧПУМ) чаще всего отсутствует (система не нуждается в помощи человека — напротив, эта ее роль состоит в оказании ему помощи). Зато постредактирование в них, как правило, вполне уместно.

Терминологические банки данных (ТБД) занимают на введенной выше шкале последнее место. Обращение к ним происходит нередко не в ходе самого процесса перевода (переводчик не обязательно работает в режиме „он-лайн"), но еще до того, как человек начнет свою работу. Более того, к банку данных может в принципе не предусматриваться доступа в режиме „он-лайн" — он может служить только для подготовки печатных глоссариев по соответствующим предметным областям. ТБД включает обычно только техническую терминологию, но не общеупотребительные слова (их пользователь уже знает).

Основное достоинство ТБД заключается не в том, что он автоматизирован (даже в режиме „он-лайн" поиск слов происходит не с большей скоростью, чем при пользовании обычным словарем), а в том, что он содержит все самые последние данные: техническая терминология постоянно меняется, и публикуемые словари к тому времени, как они выходят из печати, успевают в значительной степени устареть. Кроме того, ТБД может превосходить такие словари по объему, поскольку в его составлении может принимать активное участие большее число специалистов: все его пользователи.

Цели перевода

Говоря о практических целях, на которые может быть ориентирован перевод, следует разграничивать прежде всего такие две задачи, как сбор информации vs. ее распространение. Классическим случаем первой задачи можно считать сбор разведывательных данных: при том количестве сведений, которое требуется обработать, на тщательный перевод каждого документа обычным способом (то есть с помощью человека) не хватает, конечно, ни времени, ни средств, ни энтузиазма. Перед учеными чаще встает другая дилемма: материалов, с которыми нужно ознакомиться, и так уже больше, чем можно было бы прочесть за остающееся на это время, а мучиться над текстами, написанными на иностранных языках, вообще не имеет смысла — настолько мала вероятность, что тот или иной конкретный текст будет действительно представлять интерес для работы. В прошлом роль lingua franca в научном общении играл английский язык;

теперь, однако, в силу целого ряда причин — начиная с усиления чувства национального достоинства и кончая распространением передовой технологии по всему миру — оснований для этого утверждения становится все меньше и меньше. В результате тем ученым, которые ограничиваются английским языком, все труднее держаться в курсе последних достижений в своей области знаний. Если бы была возможность получать переводы очень быстро и за небольшую плату, то — в пределах той тематики, по которой читатель является специалистом,— для целей сбора информации вполне достаточно было бы и низкокачественных переводов.

Читатель мог бы по крайней мере определить, стоит ли тратить силы и средства на более тщательный (и более дорогостоящий) перевод тех же текстов. А скорее всего он понял бы их содержание достаточно хорошо, чтобы вообще обойтись без более тщательного перевода.

Классическим случаем перевода в целях распространения информации является его использование при экспорте техники: если промышленная фирма заинтересована в продаже своей продукции за пределами своей страны, ей обычно приходится предоставлять покупателю документацию на том языке, который он предпочитает. В прошлом американские компании обходили эту проблему, требуя, чтобы покупатели изучали английский язык; другие экспортеры (например, немцы) никогда не могли позволить себе такую роскошь. В будущем, по мере роста чувства национального достоинства, англоязычная документация будет, по-видимому, иметь все меньшее хождение. Чем больше компаний начинает ориентироваться на внешний рынок, тем чаще возникает потребность в переводе. И, что еще более существенно, тексты, предназначенные для распространения (экспорта) информации, должны переводиться весьма тщательно: перевод должен быть „правильным" и ясным. Квалифицированных же переводчиков технических текстов найти трудно, работают они медленно (переводя в среднем от 4 до 6 страниц в день), и стоимость их работы весьма высока. Новый подъем интереса к МП во многом вызван именно перспективой его применения для распространения информации.

Предполагаемые области применения (Ч)МП

Хотя перевод литературных произведений — это тоже частный лучай распространения информации, спрос на машинный перевод удожественной литературы практически отсутствует: в отличие от феры технического перевода здесь нет недостатка в переводчиках; айв любом случае машины плохо справляются с художественным ереводом. Напротив, спрос на технический перевод ошеломляет уже амим объемом требуемых переводов; к тому же огромные трудности оздает необходимость постоянно накапливать и поддерживать в рабочем состоянии адекватную техническую терминологию, а также следить за последовательностью ее употребления в тексте.

Что еще хуже, во многих отраслях техники наблюдается резкая нехватка квалифицированных переводчиков, и совершенно очевидно, что при всей похвальности таких мер, как дополнительное поощрение переводческого труда, снять остроту проблемы технического перевода этим способом никогда не удастся. Единственное, на что можно надеяться в плане решения данной проблемы, это на увеличение производительности человеческого труда за счет использования вычислительной техники: на этом пути найдут себе место и полностью автоматизированные системы МП, и не претендующие на такую самостоятельность системы ЧМП, и терминологические банки данных, работающие в режиме „он-лайн", и средства экранного редактирования. Весьма удачная ситуация складывается здесь в связи с проблемами стиля: при художественном переводе основной упор делается именно на стилистические требования — возможно, даже в ущерб требованию абсолютной точности в передаче содержания (это особенно характерно для поэзии). При техническом же переводе первостепенное значение по праву придается точности — пусть даже в ущерб стилистической удачности изложения. Системы (Ч)МП с точки зрения стилистики неудовлетворительны; зато с точки зрения терминологии они превосходны — так что в наибольшей степени они пригодны как раз для технического перевода.

Лингвистические методики

Методики МП можно рассматривать с разных точек зрения. Мы будем исходить из следующих противопоставлений: прямой vs. непрямой способ перевода; перевод через язык-посредник vs. использование межъязыковых операций (transfer); локальный vs. глобальный подход к обработке текста (практически реализуются не все из восьми возможных комбинаций выделенных признаков). С позиций перечисленных противопоставлений мы и будем характеризовать в дальнейшем изложении описываемые нами системы МП. В свое время при сравнении различных систем МП всегда упоминалось об „использовании семантики": те системы, в которых использовалась семантика, объявлялись „хорошими", те, в которых она не использовалась,— „плохими".

Теперь уже обо всех системах МП утверждается — из очевидных соображений,— что они используют семантику, так что это не может больше рассматриваться в качестве различительного признака.

Прямой способ перевода имеет место в тех системах, которые (как, например, система GAT) с самого начала ориентированы на перевод с одного определенного языка на другой столь же определенный язык. Такие системы ограничиваются только тем минимумом операций над текстом, который безусловно необходим для получения требуемого перевода. Например, неоднозначность устраняется лишь в той мере, в какой это нужно для перевода именно на данный выходной язык, безотносительно к тому, что может потребоваться для другого языка. Напротив, непрямой способ перевода имеет место в тех системах, в которых (как, например, в системе EUROT- RA) анализ текста на входном языке и синтез текста на выходном языке представляют собой принципиально независимые процедуры. В частности, устранение неоднозначности производится в тех пределах, в которых это необходимо, чтобы установить „смысл" входного текста (какой бы тип „смыслового" представления при этом ни использовался), безотносительно к тому, на какой выходной язык (или языки) данный текст будет переводиться.

О переводе через язык-посредник говорят в связи с теми системами, в которых (как, например, в системе СЕТА) представление „смысла" входного текста предполагается независимым от какого-либо естественного языка и непосредственно используется для синтеза текста на выходном языке. Идея языка-посредника основывается на понятии лингвистических универсалий, являющихся предметом поиска и полемики как лингвистов, так и философов. Имеется в виду, что представление той или иной единицы значения должно быть одним и тем же независимо от того, на каком языке (или в рамках какой грамматической структуры) эта единица получает свое выражение. Об использовании межъязыковых операций принято говорить в тех случаях, когда (как, например, в системе TAUM) глубинное представление „значения" структурно-грамматической единицы (например, предложения) может быть различным в зависимости от того языка, который был исходным при анализе рассматриваемой единицы или должен быть выходным при ее синтезе. Отсюда следует, что в процесс перевода должен включаться еще один, третий этап, на котором должен происходить переход от представлений значения, специфических для одного языка, к соответствующим им представлениям, специфическим для другого языка; этот этап и называется этапом Межъязыковых Операций [44]. Таким образом, в целом процесс перевода с использованием межъязыковых операций предстает как последовательное осуществление сначала анализа, затем межъязыковых операций, а после них — синтеза. Противопоставление двух типов перевода — перевода через язык-посредник и перевода с использованием межъязыковых операций — применимо не ко всем системам МП; в частности, оно нерелевантно для систем, реализующих прямой способ перевода, поскольку в них не предусматривается построение формального представления „значения".

Противопоставление локального vs. глобального подходов к обработке текста является скорее количественным, чем качественным. К системам, опирающимся на локальный подход, относят такие системы, в которых (как, например, в системе SYSTRAN) основными единицами, управляющими процессом анализа, являются слова, и анализ фактически сводится к выполнению для каждого слова отдельной определяемой им процедуры, направленной на то, чтобы установить — пользуясь сведениями о словах, расположенных слева и/или справа от обрабатываемого слова,— часть речи, к которой относится это слово, возможный факт вхождения его в тот или иной идиоматический оборот, а также его конкретный „смысл". В таких системах серьезную проблему представляет, в частности, обработка омографов (слов, различающихся своей частью речи и/или деривационной историей — а следовательно, и значением,— но имеющих одинаковое написание), поскольку построение общей структуры предложения как такового в них не предусматривается. К системам, опирающимся на глобальный подход, относят системы типа METAL, в которых значение слова определяется его контекстом в рамках общей структуры предложения (или, реже, абзаца). Здесь, в противоположность системам предыдущего типа, омография не создает, как правило, особых проблем, поскольку учитывается гораздо более широкий контекст, чем в системах с локальным подходом к обработке текста.

Историческая справка

Среди открытых публикаций имеется несколько обзорных работ, в которых достаточно полно и всесторонне описываются разработки в области МП (Bruderer, 1977) и их история (Hutchins, 1978). Чтобы как-то продемонстрировать существующую в данной области преемственность, не превышая при этом допустимого объема журнальной статьи, мы ограничимся в своем кратком историческом обзоре только теми системами и проектами, которые уже прекратили свое существование, но на основе которых были разработаны последующие системы или проекты, представляющие интерес с современной точки зрения. Это джорджтаунская система GAT, гре- нобльская система СЕТА, техасская система METAL, монреальская система TAUM и, наконец, система ALP, разработанная в Университете Бригема Янга.

В Джорджтаунском университете была создана одна из самых первых систем МП. Работы по ее созданию начались в 1952 г. и финансировались за счет государственных ассигнований; в 1964 г. построенная действующая система GAT была передана в Национальную лабораторию в Оук Ридже, в распоряжение Комиссии по атомной энергии, а также в Евратом — аналогичное европейское научное учреждение в Испре (Италия). Обе системы использовались в течение многих лет для перевода на „английский" язык русских текстов по физике. По своему качеству выходные тексты сильно уступали переводам, выполняемым человеком, однако для тех целей, на которые была рассчитана система GAT,— для беглого просмотра материалов и оценки их содержания в том отношении, представляет ли оно интерес,— эта система имела все же явное преимущество перед теми двумя возможностями, которые только и могли составить ей альтернативу: получением переводов за счет более медленного и дорогостоящего человеческого труда или, что еще хуже, отсутствием каких бы то ни было переводов. В Евратоме систему GAT заменили другой только в 1976 г.; в Национальной лаборатории в Оук Ридже она, по-видимому, работала по меньшей мере до 1979 г. (J о г d a n et al., 1976, 1977), а быть может, и дольше.

Стратегия перевода в системе GAT строилась в рамках прямого локального подхода: предусматривалась просто пословная замена исходных слов на их переводные эквиваленты, после которой осуществлялись немногочисленные позиционные перестановки, позволявшие получить нечто отдаленно напоминающее текст на английском языке. Очень скоро под „словом" стали понимать либо отдельное слово, либо последовательность слов, образующую „идиому". Система GAT не опиралась на сколько-нибудь серьезную лингвистическую теорию; математическое ее обеспечение — при тогдашнем уровне развития программирования — также не имело под собой теоретической базы. Работа над системой сводилась к тому, что ее приспосабливали для обработки определенного текста, затем модифицировали применительно к следующему тексту и т. д. В конечном итоге была получена система, не обладающая внутренней члени- мостью и столь громоздкая, что совершенствовать ее было практически невозможно: после ее установки в Национальной лаборатории в Оук Ридже и в Евратоме серьезных модификаций в нее уже не вносилось. Весьма примечателен в этой связи тот факт, что она продолжала использоваться в течение столь длительного времени: это

показывает, насколько терпимыми могут быть пользователи, если они отчаянно нуждаются в переводческом обслуживании и не имеют при этом никакого реального выбора, кроме МП, пусть даже и низкокачественного.

Исследования в рамках Джорджтаунского проекта работ по МП завершились в середине 60-х годов. Один из его участников, Питер Тома, создал затем компанию LATSEC, разработавшую систему SYSTRAN. В 1970 г. эта система была установлена в Отделе зарубежной технологии ВВС США на авиационной базе ВВС в Райт Паттерсоне вместо системы Mark-Н фирмы IBM; в 1976 г. она сменила систему GAT в Евратоме, где продолжает использоваться и до сих пор для перевода русских текстов на английский язык в связи с задачами сбора информации. К системе SYSTRAN мы вернемся в следующем разделе.

Система СЕТА *

В 1961 г. во Франции в Гренобльском университете начались работы по машинному переводу с русского языка на французский. В отличие от системы GAT проект СЕТА основывался на четкой теоретической концепции языка — поскольку авторы этого проекта имели возможность уже в течение нескольких лет наблюдать развитие событий в Джорджтауне и в других центрах исследований по МП и учиться на этом опыте. В частности, было решено не ограничиваться отдельными перестановками слов, осуществляемыми по эвристическим правилам, базирующимся на внутрифразовой информации (как это делается при локальном подходе), но производить пофразный анализ текста с построением для каждого предложения его структуры зависимостей (то есть ориентироваться на глобальный подход); имея в своем распоряжении результаты такого целостного анализа предложения, можно было достаточно серьезно подойти и к задаче синтеза. Теоретические принципы, положенные в основу системы СЕТА, предусматривали переход к языку-посреднику (то есть к нейтральному, независимому от конкретного естественного языка представлению значения) на уровне грамматики и использование межъязыковых операций (то есть переход от представления значения, специфического для одного естественного языка, к представлению, специфическому для другого языка) на уровне лексики (словаря). Поскольку теория программирования находилась тогда еще в зачаточном состоянии, при разработке математического обеспечения системы СЕТА ее создателям пришлось опираться преимущественно на язык ассемблера ЭВМ фирмы IBM (Hutchins,

1978).

Система СЕТА продолжала разрабатываться в течение десяти лет; за период 1967—1971 гг. с ее помощью был переведен на французский язык массив русских текстов по математике и физике общим объемом 400 ООО слов. Основные выводы, сделанные в результате этих исследований, состояли в том, что использование языка- посредника приводит к потере информации, существенной для выбора средств выражения в тексте перевода; если же некоторая фраза не может быть проанализирована полностью, она при таком подходе либо получает очень слабый перевод, либо вообще не получает перевода. Разработчики системы СЕТА выяснили, что для действующей системы принципиальное значение имеет сохранение поверхностных показателей, позволяющих выбирать те или иные способы формулировки переводного текста (для индоевропейских языков характерно, в частности, существенное структурное сходство, не говоря уже о большом числе родственных слов, и при переводе этим можно успешно пользоваться); чрезвычайно важно также, чтобы в системе имелись средства, обеспечивающие устойчивость ее работы при отказах отдельных блоков; при переводе через язык-посредник добиться этого весьма сложно, а то и невозможно; зато метод межъязыковых операций в этом отношении вполне эффективен.

В 1971 г. в Гренобле перешли на новый тип ЭВМ (и соответственно— на новый тип программного обеспечения), что ускорило принятие решения о прекращении работ над системой СЕТА. Немедленно вслед за этим была начата разработка нового проекта — системы GETA, опирающейся уже только на метод межъязыковых операций с гарантируемой им устойчивостью работы системы при отказах. При создании ее математического обеспечения вновь существенно использовался язык ассемблера, что должно было вскоре повлечь за собой пагубные последствия — причины этого сейчас для всех очевидны. К рассмотрению системы GETA мы вернемся ниже.

Система METAL*

В 1961 г. в Техасском университете — сотрудники которого имели ту же возможность учитывать опыт своих предшественников, что и гренобльские ученые,— был создан за счет государственных ассигнований Центр лигнгвистических исследований (ЦЛИ), задача которого состояла в осуществлении проекта METAL, также имевшего целью исследования в области машинного перевода, но уже не с русского языка на английский, а с немецкого (фактически исследования по МП в Техасском университете были начаты в 1956 г.). ЦЛИ взял на вооружение трансформационную концепцию Хомского, которая в это время быстро завоевывала популярность среди лингвистов; в рамках этой концепции был построен синтаксический язык-посредник, опирающийся на понятие глубинной структуры. Вскоре обнаружилось, что трансформационная лингвистика как таковая пока еще недостаточно разработана, чтобы служить основой действующей системы, и был принят ряд компромиссных решений. Конечным результатом явилась программа на языке программирования ФОРТРАН, содержавшая в 1974 г. 80 000 строк и организованная в виде 14 оверлейных сегментов; работала она на компьютере CDC-6600, целиком использовавшемся только для этой цели. Перевод осуществлялся непрямым способом; три основных этапа — анализ, межъязыковые операции и синтез — были разбиты на 14 подэтапов: по одному на каждый из 14 оверлейных сегментов,— и весь процесс обработки текста требовал невероятных затрат машинного времени — как на работу центрального процессора, так и на операции считывания данных из огромных информационных массивов и записи их в эти массивы. Государственное финансирование разработок по МП в США в это время в любом случае постепенно сводилось на нет, и проект METAL вскоре прекратил свое существование.

Через несколько лет благодаря небольшой правительственной субсидии он возродился вновь. Имевшаяся программа была переписана с ФОРТРАНа на ЛИСП и стала работать на ЭВМ DEC-10; одновременно эта программа была сведена ровно к трем основным этапам (анализ, межъязыковые операции и синтез) и сокращена до 4000 строк кода; это позволило обойтись тремя оверлейными сегментами, а потребность в машинных ресурсах снизилась в десять раз. Хотя интерес к этим разработкам со стороны правительства США в дальнейшем опять ослабел, их начал финансировать Отдел языкового обслуживания корпорации „Siemens AG“ в Мюнхене; начиная с 1980 г. все работы по данному проекту ведутся только на средства этой корпорации.

Система TAUM [45]

В 1965 г. в Монреальском университете начал разрабатываться проект TAUM, финансируемый канадским правительством. Это был, по-видимому, первый из проектов систем МП, в котором строго выдерживался принцип перевода с использованием межъязыковых операций. Математическое обеспечение системы TAUM создавалось на языке программирования ФОРТРАН для ЭВМ CDC 6600 (впоследствии CYBER-173). Вначале исследования имели более или менее свободную направленность, затем канадское правительство стало ориентировать систему TAUM на конкретные задачи. Случайное замечание, которое обронил, устав от однообразия своей работы, один из переводчиков Канадского метеорологического центра (КМЦ), привело к созданию побочного проекта TAUM-METEO. Для прогнозов погоды, составлявшихся на английском языке, и тогда уже была характерна значительная степень унифицированности как в стилистическом, так и в лексическом отношении. Отчасти именно по этой причине работа по их переводу на французский язык оказывалась очень монотонной, что приводило к исключительно высокой текучести кадров среди переводчиков метеорологической службы: в среднем переводчики менялись каждые полгода. В 1975 г. группе, работавшей над проектом TAUM, было поручено создать действующую систему англо-французского МП для перевода прогнозов погоды. В 1976 г. была представлена система-прототип, а к 1977 г. система МЕТЕО была сдана в промышленную эксплуатацию. Эта система будет рассмотрена в следующем разделе.

Новой задачи долго ждать не пришлось: потребовалось, чтобы система TAUM была в сжатые сроки адаптирована для перевода с английского на французский язык комплекта руководств по техническому обслуживанию и ремонту авиационной техники общим объемом в 90 миллионов слов (перевод был нужен срочно, и в случае задержки с подготовкой системы его предстояло начать вручную). С этого момента разработчики системы TAUM сосредоточили свои усилия исключительно на обработке авиатехнических руководств. Анализ входного текста осуществлялся в имевшейся версии системы преимущественно на синтаксических основаниях, и, чтобы преодолеть те трудности, которые при этом возникали (особенно в связи с употребительностью в авиатехнических руководствах многокомпонентных цепочек существительных), для системы TAUM-AV1AT10N стали разрабатываться начиная с 1977 г. мощные средства семантического анализа.

ОА*

В 1979 г. система была опробована, и стало ясно, что к промышленному использованию в требуемые сроки она готова не будет. Канадское правительство организовало ряд оценочных испытаний для выявления возможностей системы. Среди прочего обнаружилось (G е г v a і s,1980), что стоимость составления словарных статей непомерно высока (на одну статью затрачивалось 3,75 человеко-часа, что стоило 35—40 канадских долларов); стоимость работы системы непосредственно в процессе МП (6 центов за слово) также оказалась слишком высокой в сравнении со стоимостью работы пере- водчика-человека (8 центов за слово), особенно если учитывать стоимость постредактирования (для переводов, получаемых с помощью системы TAUM, она составляла 10 центов за слово, в то время как для переводов, выполненных человеком,— 4 цента за слово). Система TAUM-AV1AT10N была еще экономически нерентабельной. По этой и по ряду других причин — в частности, в связи с неблагоприятным экономическим положением Канады — работы по проекту TAUM в 1981 г. были прекращены. В последнее время в Канаде заметны признаки возрождающегося интереса к МП. Согласно устному сообщению Пьера Изабеля, одного из прежних разработчиков системы TAUM, были затребованы обзоры, характеризующие современное состояние дел в этой области. Однако нового проекта исследований по проблеме МП пока не предусматривается.

Система ALP [46]

В 1971 г. в Университете Бригема Янга начались работы по проекту, называемому ниже проектом BYU [47]. Проект имел целью разработку системы перевода религиозных текстов мормонов с английского языка на ряд других, в первую очередь на французский, немецкий, португальский и испанский. Первоначально планировалось создать полностью автоматическую систему МП, основанную на грамматике юнкций (junction grammar) (Lytle et al., 1975). Однако в 1973 г. акцент был сдвинут в сторону человеко-машинного перевода (ЧМП отличается тем, что система не предпринимает самостоятельных попыток анализа предложений с использованием предварительно введенных в нее лингвистических правил; вместо этого как в процессе анализа, так и при формировании окончательного текста перевода она должна опираться прежде всего на взаимодействие с человеком). Построенная в результате интерактивная система перевода ITS [48] способна была производить (с помощью человека) глобальный анализ предложения, а затем (опять-таки с помощью человека) — межъязыковые операции, осуществляемые с позиций непрямого подхода к процессу перевода.

Разработки в рамках проекта BYU не привели к созданию действующей системы (поскольку стоимость аппаратного оборудования, а также объем и сложность процедур взаимодействия с человеком исключали возможность ее рентабельного использования), и мормонские церковные власти стали постепенно сворачивать в университете работы по этому проекту. В 1980 г. группа участвовавших в нем программистов перешла в корпорацию „Weidner Communications" и включилась в разработку систем этой корпорации — полностью автоматических систем МП, основанных на прямом подходе к процессу перевода. Приблизительно в то же время большинство остальных участников проекта BYU, уйдя из университета, объединились в компанию ALPS * и продолжили работу над системой ITS. Обе упомянутые системы в настоящее время имеются в продаже и пользуются большим спросом; они будут рассмотрены нами в следующем разделе обзора. В Университете Бригема Янга также продолжается работа в области МП, но уже в значительно меньших масштабах и с более скромными требованиями (см., например, Me lb у, 1982).

<< | >>

↑

Источник: Б.Ю. Городецкий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городецкого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме ТЕХНОЛОГИЯ МАШИННОГО ПЕРЕВОДА:

Технология получения чистой воды Основа технологии

Часть V. Технология и ещё раз технология

4. Страхование машин от поломок Особенности страхования машин от поломок

«Машина войны».

§4.2. Машина Тьюринга

2. Перевод.

Человек - не машина

Право на перевод

Метательные машины

- Английский язык - Диалектология - Иностранные языки - История русского языка - Лексикология. Фразеология. Лексикография - Лингвокультура - Общая лингвистика - Общее языкознание - Русская филология - Русский язык - Синтаксис - Словообразование и морфология - Стилистика и культура речи - Украинский язык - Фонетика. Графика. Орфография -

- Архитектура и строительство - Безопасность жизнедеятельности - Библиотечное дело - Бизнес - Биология - Военные дисциплины - География - Геология - Демография - Диссертации России - Естествознание - Журналистика и СМИ - Информатика, вычислительная техника и управление - Искусствоведение - История - Конфликтология - Культурология - Литература - Маркетинг - Математика - Медицина - Менеджмент - Педагогика - Политология - Право России - Право України - Промышленность - Психология - Реклама - Религиоведение - Социология - Страхование - Технические науки - Учебный процесс - Физика - Философия - Финансы - Химия - Художественные науки - Экология - Экономика - Энергетика - Юриспруденция - Языкознание -