ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Исследования и разработки в области МП, ведущиеся в Японии

В 1982 г. Япония взбудоражила весь промышленный мир, широко разрекламировав свой проект ЭВМ пятого поколения и создав в качестве базовой организации для осуществления этого проекта Институт вычислительной техники нового поколения (ИВТНП).

Цель проекта состоит в том, чтобы Япония одним прыжком обогнала Запад по своему технологическому уровню и в девяностых годах нашего века встала во главе всей мировой электроники и информа­тики. Основным инициатором этого проекта является Министерство внешней торговли и промышленности Японии, которое рассчитывает достичь поставленной цели путем разработки и реализации револю­ционной методологии и технологии как в сфере архитектоники ЭВМ, так и в области искусственного интеллекта (ИИ).

Среди возможных областей практического применения предпо­лагаемых результатов, рассматривавшихся учеными и инженерами ИВТНП, важное место занимала область машинного перевода (М о t о - о к а, 1982). Для западных ученых, занимающихся пробле­мами искусственного интеллекта, включение МП в это рассмотрение представляется совершенно неуместным: в течение двух десятилетий, прошедших со времени разгромного доклада комитета ALPAC, они столь упорно (и столь успешно) игнорировали всю ту работу, которая велась в области МП, что почти единодушно полагают, будто в бли­жайшем будущем достичь в ней сколько-нибудь успешных резуль­татов невозможно, пребывая при этом в полном неведении относи­тельно того, что уже существуют успешно работающие и экономи­чески рентабельные практические системы. Для японского руководст­ва, однако, учет МП отнюдь не случаен. Если оставить в стороне обучение иностранным языкам, перевод иностранной документации на японский язык служит все еще одним из основных каналов, по которым японские исследователи получают информацию о том, что делают их западные конкуренты и как именно они это делают. Перевод же с японского языка на другие необходим в качестве предпосылки экспорта японской продукции на внешние рынки, по­скольку покупатели настаивают на том, чтобы технические руковод­ства и другая документация были написаны не только по-японски; кроме того, перевод вообще расценивается как средство «обеспе­чить проникновение японской научной и технической информации во внешний мир» (М.

Нагао, устное сообщение). Японцы справедливо полагают, что перевод жизненно необходим им как средство сохра­нения конкурентоспособности в области технологии; но они убеди­лись, что обеспечивать его только за счет человеческого труда крайне сложно, не говоря уже о дороговизне: по суммарным оценкам, японские компании ежегодно расходуют на перевод более 1 триллио­на иен, и большая часть этих расходов связана с торговлей на экспорт (R h і 1 і р р і, 1985). Поэтому японское правительство, а так­же японские промышленные круги в течение уже нескольких де­сятилетий финансируют исследования по машинному переводу. И в Японии нет той пропасти между исследователями в области ИИ и в области МП, которая разделяет их в странах Запада, особенно в США.

По сведениям, приведенным в N о m и г а, 1982, в Японии насчи­тывается более 18 групп, которые занимаются исследовательскими разработками в области МП. (Укажем для сравнения, что в США и в Европе, вместе взятых, найдется — с учетом фирм—постав­щиков коммерческих систем — лишь дюжина аналогичных групп, которые бы заслуживали внимания.) Ряд японских проектов имеет весьма крупные масштабы. (В западном мире, к сравнению, есть только один проект — EUROTRA,— который хотя бы по внешним признакам можно считать крупномасштабным, однако большинство из 80 занятых в нем сотрудников посвящают ему лишь часть своего рабочего времени.) Очень многие японские проекты пред­усматривают не только создание конкретных систем, но и фунда­ментальные исследования. (Большинство аналогичных проектов на Западе ориентированы исключительно на конкретные разработки.) Японцы не сразу сумели добиться успеха в области МП: до самого последнего времени этому мешало их отставание в области техно­логии изготовления аппаратного оборудования, равно как и недоста­точная компетентность в отношении программного обеспечения; од­нако вот уже несколько лет, как ситуация стала быстро меняться. Дополнительным препятствием служило то, что японский язык характеризуется существенными отличиями от западных языков, особенно от английского, который интересует японцев больше всего, и известно об этих отличиях относительно мало.

Японцы работают над тем, чтобы восполнить эту недостающую информацию, и опреде­ленный прогресс здесь уже достигнут: создан ряд систем, качество работы которых уже приемлемо для некоторых видов их промыш­ленной эксплуатации. Ни одна из японских систем не опирается на „прямую" стратегию перевода, и во всех них реализуется гло­бальный подход к анализу; в большинстве систем перевод осущест­вляется с использованием межъязыковых операций, но есть и не­сколько групп, исследующих возможности перевода через язык-по­средник.

В Киотоском университете разработки в области МП были начаты в 1964 г. Одно время в Киото велась работа по двум проектам исследований в этой области (один проект был ориентирован на долгосрочные исследования, другой — на создание в короткий срок системы, допускающей практическое применение). Первый проект, работы по которому не так давно прекращены, предусматривал создание системы англо-японского МП, основанной на формально­семантическом подходе (использовалась упрощенная версия грам­матики Монтегю, предложенная М. Дж. Крессуэллом (N і s h і d a et al., 1982; 1983)). В рамках второго проекта была построена практи­ческая система, служащая для перевода с английского на японский язык заглавий научно-технических статей (N a g а о, 1980; 1982), а теперь разрабатываются другие прикладные системы как англо­японского МП (Т s u j і і, 1982), так и японско-английского (N a g а о, 1981). В этих разработках, финансируемых Управлением по науке и технике и возглавляемых проф. М. Нагао, «занято более 20 человек [в Киото], а также участвуют три другие организа­ции [предоставляющие еще 20 сотрудников]» (М. Нагао, устное сообщение). Рассчитанный на четырехлетний период и предусматри­вающий финансирование в объеме 2,7 млн. американских долларов, данный проект имеет целью создание практической системы японско- английского и англо-японского МП для научно-технической докумен­тации (Philippi, 1985). Исследования в области МП проводятся также начиная с 1955 г. в Университете Кюсю, где осуществляются проекты Тамати и Сюдо (S h u d о, 1974).

Кроме того, проекты систем МП разрабатываются в Университете префектуры Осака и в Универ­ситете Фукуока.

Однако большая часть исследований по проблемам МП (как и ис­следований по другим направлениям) осуществляется в Японии силами лабораторий, принадлежащих промышленным фирмам. Круп­номасштабные проекты (нацеленные в основном на перевод руко­водств по вычислительной технике) финансируются, в частности, такими компаниями, как „Фудзицу" (Sa wai et al., 1982), „Хита- ти", „Тосиба" (A m а п о, 1982), корпорация „NEC" (М и г а к і & 1 с h і у a m а, 1982) и др. Ведутся соответствующие разработки и Японской телеграфной и телефонной компанией „NTT", в рамках которой создается система японско-английского и англо-японского МП, рассчитанная на перевод научно-технических статей (Nomu­ra et al., 1982); в будущем имеются в виду и такие далекие перспективы, как синхронный машинный перевод телефонных раз­говоров (X. Номура, устное сообщение). Относительно недавно завершена англо-японская система МП, разрабатывавшаяся сов­местными усилиями компаний „Хитати" и „Quick"; система будет использоваться для информирования японского читателя о событиях, происходящих в Европе и в США в области экономики, на фондовой бирже и в сфере товарного производства; в конечном итоге такое обслуживание будет предоставляться через службу биржевой ин­формации фирмы „Quick" в режиме „он-лайн". Кроме того, о созда­нии своей системы МП Atlas, обеспечивающей двусторонний (япон­ско-английский и англо-японский) перевод технических текстов, объявила фирма „Фудзицу"; в настоящее время эта система пре­доставляется в аренду (ААТ, 1984). Компании „NEC" и „IBM Japan" также сообщили недавно о том, что ведут работу над системами МП, которые, как предполагается, должны вскоре получить коммер­ческий статус (Philippi, 1985).

Интересы японских промышленных кругов не ограничиваются только разработками, ведущимися в самой Японии. С предложениями финансировать проекты исследований и разработок в области МП японские компании обращались также к ряду американских групп, занимающихся проблемами ИИ (например, к фирме ,,SR1 Interna­tional"), и в настоящее время корпорация „Хитати" финансирует исследования, связанные с проблематикой МП, в Центре лингвисти­ческих исследований Техасского университета.

Более того, в послед­нее время ряд американских компаний — поставщиков систем МП (по крайней мере компании „SYSTRAN" и „Weidner”) продали часть своих акций японским вкладчикам и предоставили им промышлен­ные системы МП. Многие японские корпорации (например, корпора­ции „NTT" и „Хитати") и торговые объединения (например, JE1DA — Японская ассоциация по развитию электронной промыш­ленности) неоднократно посылали группы своих сотрудников в раз­ные страны мира для ознакомления с ведущимися там разработками в области МП и для оценки общего состояния дел в этой области. Отдельным ученым из японских университетов предоставлялись го­дичные отпуска для работы в западных центрах исследований по МП (проф. К. Сюдо приезжал в Техас, проф. Дз. Цудзии — в Гре­нобль). От ряда других специалистов известно о стремлении Японии установить тесные рабочие связи с группой, работающей по проекту EUROTRA в рамках Комиссии Европейских Сообществ (М. Кинг и М. Нагао, устное сообщение). Все это свидетельствует о намере­ниях Японии в течение длительного времени и во все возрастающих масштабах вести работу по освоению и развитию технологии МП. Японские руководители убеждены, что успех в области МП имеет жизненно важное значение для их страны.

Система METAL

Группа, которая занимается исследованиями и разработками в области МП в Центре лингвистических исследований Техасского университета,— одна из ведущих групп такого типа во всем мире — разработала в рамках проекта METAL немецко-английскую систему МП коммерческого уровня. В конце 1982 г., в середине 1983 г. и дваж­ды в течение 1984 г. система подвергалась испытаниям в условиях, аналогичных тем, которые имеют место при промышленной эксплуа­тации, лосле чего она была установлена в ФРГ в организации, финансировавшей работы по ее созданию, для прохождения дальней­ших испытаний и для окончательной доводки тех ее подсистем, которые обеспечивают интерфейс с переводчиком. В апреле 1985 г. эта система, получившая коммерческое название L1TRAS, была предложена покупателям на ярмарке в Ганновере (ФРГ).

В настоя­щее время ведется работа по расширению словарей системы METAL, с тем чтобы обеспечить максимально полное покрытие с их помощью текстов, относящихся к соответствующим техническим отраслям; начата также серьезная работа над другими языковыми парами.

Одним из важных достоинств системы METAL следует считать то, что в ней реализован ряд различных лингвистических теорий и/или стратегий. Подсистема анализа немецких текстов опирается на контекстно-свободную грамматику непосредственно составля­ющих, расширенную за счет процедур, позволяющих, среди прочего, задавать произвольные трансформации. В то же время подсистема анализа, разработанная для английского языка, использует моди­фикацию обобщенной грамматики непосредственно составляющих и не предполагает трансформаций. Процедуры анализа полностью отделены от межъязыковых операций, и система является много­язычной в том смысле, что получаемая в результате анализа структу­ра составляющих может служить основой для межъязыковых опе­раций и процедур синтеза, обеспечивающих перевод исходной фра­зы на различные выходные языки. (В качестве эксперимента осуществлялся перевод с немецкого языка на китайский и испанский, а также с английского на немецкий.)

Подсистема межъязыковых операций в системе METAL включает два пакета трансформаций: к одному из них отсылают правила межъязыковой грамматики, ко второму — межъязыковые словарные статьи. Процесс межъязыковых операций предусматривает взаимо­действие тех и других и осуществляется путем просмотра дерева составляющих, построенного на этапе анализа (и получившего более высокую оценку, чем альтернативные деревья) в направлении сверху вниз. Порядок обхода дерева при движении по нему сверху вниз определяет лингвист — составитель правил межъязыковых операций. Чаще всего такие правила ставятся во взаимно-однозначное соответ­ствие с грамматическими правилами, работающими в ходе анализа исходного текста, так что поиск правил, релевантных в том или ином частном случае, не требует просмотра всей межъязыковой грам­матики в целом (который был бы чреват опасностью ошибочного выбора отдельных правил). Предусмотрена, однако, и возможность использования межъязыковой грамматики более общего типа; реаль­но такая более общая грамматика применяется при переводе прида­точных. Как можно понять из предыдущего, и структурные, и лекси­ческие межъязыковые операции осуществляются за один проход, так что работа правил каждого из этих двух типов может зависеть от результатов выполнения правил второго типа; в частности, в стать­ях межъязыкового словаря может указываться, в каких синтакси­ческих и/или семантических контекстах допустимы соответствующие лексические единицы. Если для исходной цепочки слов не удалось построить ни одного полного варианта ее структуры, на этапы межъ­языковых операций и синтеза (независимые от этапа анализа) подается последовательность самых крупных из полученных в ходе анализа частичных составляющих, покрывающих в совокупности всю рассматриваемую входную цепочку. Таким образом, некоторый перевод может быть получен для любой цепочки слов (будь то предложение или, быть может, отдельная составляющая), поступив­шей на вход системы.

В дополнение к системе МП как таковой группа Техасского уни­верситета разработала ряд пакетов программного обеспечения, слу­жащих для форматирования текста (с тем чтобы результаты перево­да выдавались в том же формате, в каком поступает в систему исходная документация), для управления базами данных (массива­ми словарных статей и грамматических правил), для верификации правил (в целях устранения возможно большего числа ошибок в сло­варях и грамматиках), для составления словарей (чтобы повысить эффективность работы человека по представлению словарных статей в закодированном виде) и т. д. Если оставить в стороне такой пери­ферийный компонент системы, как средства экранного редактиро­вания (их разрабатывала финансирующая организация), группа METAL создала фактически всю систему МП в целом, а не просто основной механизм машинного перевода, оставляющий на долю своих разработчиков/пользователей значительную часть рутинной работы. (Более подробное описание системы METAL см. в: Leh­mann et al., 1981; Bennett, 1982; Slocum, 1983; 1984; 1985).

Как уже говорилось, группа GETA была сформирована после того, как Гренобльский университет отказался от продолжения работ над системой СЕТА. Учтя все те недостатки, которые влечет за собой ориентация на язык-посредник, группа GETA решила реализовать в своей новой системе подход, предполагающий исполь­зование при переводе этапа межъязыковых операций. Принципы организации программного обеспечения системы также были в боль­шинстве своем пересмотрены, и вместо прежнего был разработан новый пакет программного обеспечения, позволяющий по-новому организовать весь процесс обработки. Ядро системы перевода GETA названо AR1ANE-78 и складывается из трех типов программ: про­граммы первого типа преобразуют линейные цепочки в деревья (например, при морфологическом анализе), программы второго типа преобразуют одни деревья в другие (например, при синтаксическом анализе и в ходе межъязыковых операций), программы третьего типа преобразуют деревья в линейные цепочки (например, при мор­фологическом синтезе). (Существует также четвертый тип программ, но его можно трактовать как частный случай одного из перечислен­ных трех типов.) Весь процесс перевода разбит на ряд последова­тельно выполняемых этапов обработки текста, на каждом из которых используется один из этих типов программ. Кроме того, в системе AR1ANE-78 имеются модули, обеспечивающие функции редактирова­ния, а также функции поддержки системы.

Одна из особенностей системы AR1ANE-78, отличающая ее от других систем МП, состоит в последовательном проведении ее созда­телями того принципа, что ни на одном из этапов не должны применяться средства, обладающие большей мощностью, чем та, которая минимально необходима для должного выполнения задач данного этапа. Таким образом, вместо того, чтобы предоставлять в распоряжение лингвиста программные средства, позволяющие задавать абсолютно любые операции,— такой тип средств, характе­ризующихся произвольной мощностью, представляют собой, напри­мер Q-системы, разработанные в рамках проекта TAUM,— система AR1ANE-78 предусматривает на каждом этапе лишь тот минимум возможностей, который необходим для осуществления операций, требуемых на этом этапе, и не более того. Это уменьшает вероятность того, что лингвист, увлекшись, переусложнит свое описа­ние; с другой стороны, программистам благодаря введенным огра­ничениям удалось добиться большего быстродействия программного обеспечения, чем было бы возможно при более общей его схеме.

„Грамматикой" в подсистеме ROBRA называется фактически сеть подграмматик; то есть грамматика задается в виде графа, определяющего все возможные варианты того, в какой последова­тельности могут применяться разные подграмматики и какие вообще из этих подграмматик могут быть выбраны для применения. Грам­матика высшего уровня представляет собой в результате „граф управления" относительно тех подграмматик, которые непосредствен­но осуществляют лингвистические операции — процедуры анализа, межъязыковые преобразования и т. п. Система ARIANE-78 обладает достаточной степенью общности, чтобы в ее терминах можно было реализовать любую лингвистическую теорию, а при желании — и несколько разных теорий одновременно (в составе разных подграм­матик). Таким образом, в принципе она является абсолютно откры­той и могла бы служить базой для любых видов семантической обработки и для работы с любыми „моделями мира", как бы они ни были описаны.

На практике, однако, дело обстоит не так просто. Для того чтобы в рамках данной системы можно было учитывать принципиально новые лингвистические теории, и особенно „модели мира", необхо­димо было бы увеличить гибкость процедур машинной обработки, а это потребовало бы многочисленных и разнообразных изменений в программном обеспечении. К сожалению, то программное обеспе­чение, на которое опирается система AR1ANE-78, является весьма жестким (поскольку написано на языках программирования низко­го уровня), и модифицировать его поэтому чрезвычайно трудно. В результате группа GET А не имеет возможности проводить экспе­риментальную проверку каких-либо принципиально новых стратегий автоматической обработки текстов. Известно, например, с какими трудностями сталкивается система GETA в связи с проблемой воз­вратов (Дз. Цудзии, устное сообщение): если обработка идет „по ложному пути" в той части, которая касается графа управления подграмматиками, некоторые из полученных результатов могут быть пересмотрены путем возвращения назад с пропуском целых графов, то есть путем игнорирования всей информации, сформированной в хо­де применения тех или иных подграмматик в целом: в пределах же отдельной подграмматики возможность вернуться на несколько ша­гов, отказавшись от учета тех изменений в обрабатываемых данных, которые внесены применявшимися на этих шагах индивидуальными правилами, не предусмотрена. Чтобы программное обеспечение сис­темы можно было как в настоящее время, так и в будущем модифи­цировать без особого труда, его нужно переписать на языке програм­мирования высокого уровня (стоит вопрос о языках ЛИСП или ПРОЛОГ), и пока группа GETА не получит достаточно крупных субсидий, чтобы взять программистов, которые бы это сделали, она останется „связанной" имеющимся программным обеспечени­ем — а оно явно начинает устаревать, не говоря уже о невозмож­ности переноса его на другие машины (кроме тех, которые выпуска­ются фирмой „IBM").

На ранних этапах работы группы GETA от нее, по-видимому, не требовалось создания полностью законченной практической систе­мы, и сотрудники этой группы могли в значительной степени руко­водствоваться в своей работе чисто научными интересами. Однако, если программное обеспечение системы GETA не будет обновлено, она может вскоре потерять жизнеспособность. (Сотрудники группы прилагают в настоящее время активные усилия к тому, чтобы изыс­кать средства для выполнения требуемых работ.) Одновременно с этим правительство Франции взяло на себя финансирование На­ционального проекта по МП, предусматривающего крупномасштаб­ные разработки по практическому внедрению системы GETA и прев­ращению ее в коммерческую систему; для программной реализации системы решено использовать язык программирования ЛИСП (Ф. Пекку, устное сообщение).

Система SUSY[52]

В Саарском университете в г. Саарбрюкен (ФРГ) осуществляется один из крупнейших в Европе проектов исследований по МП, работы по которому ведутся с конца 60-х годов. После неудачных попы­ток адаптировать для целей русско-немецкого МП джорджтаунскую систему GAT была начата разработка новой системы, построенной отчасти на тех же принципах. Процесс перевода русских текстов на немецкий язык происходит в этой системе с использованием межъязыковых операций, которым предшествует „глобальный" ана­лиз переводимого предложения, позволяющий представить его струк­туру в терминах деревьев зависимостей. В отличие от большинства других групп, работающих в области МП, перед саарбрюккенской группой не ставилась задача создания практических систем МП, так что она имела относительно широкие возможности для чисто научных исследований; в то же время уровень финансирования этой группы был достаточно высок, чтобы она могла постоянно вести серьезную экспериментальную работу, а также вносить в сис­тему разнообразные модификации. В результате для системы SUSY была в большей степени, чем для других систем, характерна тен­денция отражать в себе те внешние по отношению к ней изменения, которые происходили в области МП и ИИ. Так, в 1974 г. саарбрюк- кенская группа (наряду с гренобльской и с некоторыми другими) приняла участие в создании совместной группы исследований по МП LEIBNITZ. До 1975 г. в системе SUSY последовательно проводился подход к МП, основанный на использовании межъязыковых опера­ций; начиная с 1975 г. она стала развиваться в направлении боль­шей абстрактности: необходимость обращения при решении ряда лингвистических проблем к более „глубинным" уровням анализа при­вела к тому, что представления, фигурирующие на этапе межъязы­ковых операций, приобрели значительную степень общности, свойст­венную языку-посреднику. Еще одним следствием такой свободы в выборе направления научных исследований явилось то, что разработ­чики системы не предпринимали сколько-нибудь последовательных попыток обеспечить покрытие текстов по той или иной конкретной области, достаточное для нужд конечного пользователя.

Первоначально система SUSY разрабатывалась как многоязыч­ная система, охватывающая такие языки, как английский, фран­цузский, немецкий, русский и эсперанто; впоследствии, однако, основные усилия были сосредоточены на разработке русско-немец­кого, а в последнее время — также англо-немецкого МП. Наиболее серьезные ограничения, препятствующие дальнейшей разработке системы SUSY, связаны, по-видимому, с той изначальной теоретичес­кой концепцией, которая была положена в ее основу. В системе при­нят тот примитивный подход, при котором лингвистические правила распределялись по нескольким принципиально независимым уров­ням, а в тех случаях, где это диктуется соображениями эффектив­ности, включались непосредственно в программное обеспечение (Maas, 1984). Соответственно эти правила оказались практически необозримыми, а их взаимодействие между собой при обработке текстов в конечном итоге почти перестало поддаваться контролю. Поэтому, если говорить о системе SUSY с точки зрения возмож­ностей практического применения, ее, по-видимому, следует признать неудачной, даже при том, что она используется (в рамках универ­ситетских проектов) для перевода патентных описаний и других материалов. Быть может, системе SUSY-11, работа над которой началась в 1981 г. в рамках второй очереди данного проекта, повезет больше.

Система EUROTRA

Проект EUROTRA является самым крупным из всех западных проектов систем МП. Это первая серьезная попытка создать подлин­но многоязычную систему, в данном случае систему, охватывающую все семь языков Европейского экономического сообщества. Нужда в этом проекте вызвана действием простых и неумолимых экономи­ческих факторов: в 1982 г. более трети всех бюджетных ассигнований, выделенных в ЕЭС на административные цели, было израсходовано на оплату труда сотрудников отдела переводов (в среднем на одного сотрудника приходилось 43 ООО долларов в год), и все же отделу не удалось выполнить то, что от него требовалось, в полном объеме. Технический перевод обходится ЕЭС в 20 центов за каждое слово переводного текста; при том, что все материалы приходится перево­дить на шесть разных языков (с того седьмого языка, на котором написан оригинал), стоимость технической документации в результа­те удваивается. После приема в ЕЭС Испании и Португалии штат переводчиков — при сохранении потребностей в переводе на совре­менном уровне — придется удвоить (если только к тому времени не будут уже введены в эксплуатацию высокопродуктивные машин­ные средства) (Р е г u s s е, 1983). Недостатком системы SYSTRAN является высокая стоимость составления требуемых для нее словар­ных статей; в настоящее время это оправдывается повышением ско­рости перевода, однако в перспективе такая ситуация перестанет быть приемлемой. ЕЭС нуждается в МП более высокого качества при более низкой стоимости лексикографических работ. Справиться же со всем объемом переводов за счет одного только человеческого труда в принципе невозможно.

Проект EUROTRA является транснациональным в подлинном смысле этого слова. В его рамках не предусматривается какой-либо центральной лаборатории, где бы велась основная работа. Вместо этого каждая страна — участница проекта поручает определенным университетам, выступающим в качестве ее представителей, разра­ботать те модули системы, которые должны обеспечивать анализ и синтез текстов на родном языке разработчиков. Центральная группа должна будет создавать только модули, задающие межъязыковые операции, а эти модули предполагается строить в минимальном варианте, ограничиваясь, по возможности, только лексическими заменами (King, 1982). Разработка программного обеспечения будет почти полностью отделена от разработки лингвистических правил; более того, хотя структура программного обеспечения будет выработана сотрудниками, участвующими в проекте EUROTRA, за­каз на разработку самого этого обеспечения для промышленной версии системы может быть передан любой фирме, производящей коммерческий программный продукт, так что контракт будет заклю­чен с той фирмой, которая предложит более выгодные условия, чем ее конкуренты. Согласованность работы отдельных групп, описы­вающих разные языки и разные аспекты системы, обеспечивается деятельностью нескольких координационных комитетов.

Лингвистическая теория, на которую опирается система EUROTRA, не являет собой чего-либо принципиально нового. Основ­ной тип структур, в терминах которых представляется „смысл",— это деревья зависимостей, снабженные пометами вида „признак — значение признака". Инвентарь таких помет в одной своей части оставлен на усмотрение тех лингвистических групп, которые разра­батывают грамматики конкретных языков (каждая группа может добавлять любые пометы, какие она сочтет нужными); другая же часть этого инвентаря установлена по согласованию со всеми груп­пами (принято общее соглашение относительно того набора пар „признак — значение признака", с помощью которого может быть задан необходимый минимум информации; от всех групп требуется, чтобы разрабатываемые ими подсистемы анализа предложений на том или ином языке предусматривали получение в ходе анализа всех помет из данного набора, и все группы могут рассчитывать на то, что все эти пометы будут присутствовать в той исходной инфор­мации, которая будет поступать на вход разрабатываемых ими подсистем синтеза) (King, 1981; 1982). Сказанное отнюдь не оз­начает, что работа над системой EUROTRA не дает никакой новой лингвистической информации: помимо того, что с помощью этой системы можно будет проверить адекватность используемой тео­ретической модели, весьма существенное научное значение имеют также те фундаментальные контрастивные лингвистические исследо­вания, которые ведутся в связи с проектом EUROTRA начиная примерно с 1978 г.

Программное обеспечение системы EUROTRA в некотором смысле также не будет отличаться особой новизной. В качестве основ­ного интерпретатора лингвистических правил будет использоваться «система правил переписывания общего типа и согласованный с ней язык управления грамматиками и/или процессами» (М. Кинг, устное сообщение). Как и в системе AR1ANE-78, лингвистические правила будут объединяться в пакеты (подграмматики), и лингвисты будут иметь в своем распоряжении средства управления, позволяющие им определять то, какие пакеты правил и в какой момент должны будут применяться. Сами отдельные правила будут представлять собой правила переписывания без разрушения, так что при примене­нии любого такого правила может быть сформирована некоторая новая структура, но не может быть стерта какая-либо старая информация.

В некотором другом смысле, однако, система EUROTRA принци­пиально отлична по своему программному обеспечению от других, предшествовавших ей систем. Общий порядок осуществления ана­лиза, межъязыковых операций и синтеза не будет предопределяться теми алгоритмами, которые разрабатывают программисты. Вместо этого его будут задавать лингвисты, пользуясь в этих целях спе­циальным управляющим языком (отличным от языка для записи правил, который не зависит от алгоритма). Полученная формальная запись динамической стратегии управления будет далее подвергаться компиляции, а результирующая программа будет обеспечивать интерпретацию тех „статических" правил, которые описывают факты языка.

Это смелый шаг. Любое действие подобного рода, безусловно, связано с риском. Помимо обычной опасности возникновения непред­виденных осложнений, здесь имеется еще две достаточно очевидные проблемы, которые остаются пока еще не решенными. Во-первых, со­вершенно неясно, в какой мере лингвисты, привыкшие работать в рамках статических, „дескриптивных" лингвистических подходов (современных или любых других), сумеют освоиться с динамически­ми, алгоритмическими средствами описания — с тем способом мышления, которым гораздо лучше владеют программисты (в том числе почти все лингвисты, занимающиеся компьютерной лингвисти­кой). Во-вторых, опять-таки совершенно неясно, удастся ли орга­низовать систему достаточно гибким образом, чтобы на ее основе можно было реализовать все то множество экспериментальных вариантов стратегии обработки текстов, которое не замедлят предло­жить разработчики системы, получив такую свободу действий (вспомним, что реализация программного обеспечения мыслится как задача в принципе одноразовая, которая должна быть выполнена на договорной основе). При этом гибкость должна сочетаться в систе­ме с достаточным уровнем быстродействия, чтобы машинная обра­ботка текстов оставалась целесообразной. Проблема целесообраз­ности встает отнюдь не только в связи с той промышленной системой, которая должна явиться конечным продуктом разработки. Напротив, исключительно важно, чтобы сами разработчики имели возможность, проводя свои эксперименты, получать результаты в пределах какого- то разумного промежутка времени. Если ожидание результатов слишком затягивается, разница становится уже не количественной, а качественной и эффективность работы существенно — а быть мо­жет, и катастрофически — падает.

В соответствии с намеченным графиком работ по проекту EUROTRA небольшая эскизная прототипическая система должна быть подготовлена к концу 1987 г., а система-прототип, покры­вающая одну область техники,— к концу 1988 г. В число языков, с которых и на которые система должна обеспечивать перевод, должны входить официальные языки всех тех стран — членов ЕЭС, которые подпишут „договор о присоединении"; таким образом, не требуется, чтобы в системе были обязательно представлены все семь языков ЕЭС, однако по уставу, чтобы работа над проектом могла быть продолжена, он должен охватывать не менее четырех языков. Согласно имеющимся сведениям, требуемое число стран — членов ЕЭС уже взяли на себя обязательство подключиться к этой работе. Интересно будет узнать, успехом или неудачей завершатся разработки по данному проекту — ведь он претендует на решение более сложных и смелых задач, чем все прочие известные проекты систем МП. В любом случае результаты этих разработок обещают быть поучительными.

СОСТОЯНИЕ ПРОБЛЕМЫ НА СЕГОДНЯШНИЙ ДЕНЬ

Естественные языки в силу самой своей природы различны. Настолько различны, что иллюзорные надежды на некое абстрактное совершенство перевода — совершенство, которое когда-то казалось, а кому-то и до сих пор кажется достижимым,— можно спокойно исключить из области реальных возможностей независимо от того, идет ли речь о машине или о человеке. Даже абстрактное понятие „качества" оказывается неопределимым, а следовательно, не под­дается измерению. Вместо него приходится использовать понятие оценки перевода по степени его приемлемости для определенных це­лей в соответствии с критериями потребителя. Необходимо поэтому признать ту истину, что понятие качества принципиально субъектив­но. Разумеется, всегда найдутся такие переводы, которые большинст­во, если не все читатели, примут с одобрением и назовут „хорошими", и соответственно всегда найдутся такие переводы, которые будут почти единодушно объявлены „плохими". Тем не менее большинство переводов наверняка займет промежуточное положение между этими двумя полюсами, и каждый пользователь должен будет принимать свое собственное решение в зависимости от своих потребностей.

В профессиональных кругах, однако, существует и всегда сущест­вовало рабочее определение „хорошего" vs. „плохого" перевода: хороший перевод — тот, который старшие переводчики согласны передать в пользование посторонним (это не значит, что сами они полностью удовлетворены — такого вообще не случается), а пло­хой — тот, который они выпускать не хотят. Эти опытные перевод­чики — обычно выполняющие функции постредакторов — навязы­вают остальным свою собственную оценку, а те охотно принимают ее на веру: в конце концов на то и существуют старшие перевод­чики, чтобы давать такую оценку. Формируется она субъективно, с учетом той цели, для которой предназначается рассматриваемый перевод, но вряд ли можно будет когда-либо рассчитывать на более объективную оценку. С точки зрения постредактирования „хорошим" первичным переводом считается тот, который имеет смысл править, то есть тот, который редактор готов попытаться в чем-то изменить, но не собирается отвергать его целиком или заменять своим собст­венным первичным переводом.

Поэтому при любом разумном подходе к вопросу о состоянии дел в области МП и ЧМП следует также учитывать те рабочие решения относительно качества МП и ЧМП, которые принимаются современ­ными пользователями соответствующих систем. Все эти системы опи­раются, разумеется, на устаревшую технологию („древнюю", по меркам исследователей, работающих в области ИИ); однако когда на рынках появятся системы, основанные на современной технологии ИИ, то и они в свою очередь окажутся уже устаревшими по сравне­нию с тем уровнем, который будет достигнут к тому времени в исследовательских лабораториях. Такова природа технологии. Мы будем поэтому, давая свою оценку, разграничивать то, что доступно и/или используется на данный момент („старую", но с рабо­чей точки зрения ныне действующую технологию), то, что уже „на подходе" (методологические и технологические достижения, реализованные в рамках систем, работающих в настоящее время в исследовательских лабораториях), и то, чего можно ожидать в перспективе (экспериментальные разработки).

Промышленные системы

Промышленные системы (Ч)МП работают на основе устаревшей технологии; так, исходная информация в некоторых из них до сих пор вводится (или до самого последнего времени вводилась) с перфо­карт, а переводы печатаются (печатались) только прописными бук­вами. Очень мало (может быть, и совсем нет) таких систем, в которых предусматривался бы всесторонний глобальный анализ на уровне предложения, и ни в одной системе не делается попыток выйти за пределы предложения, на уровень абзаца. Ни в одной из промышлен­ных систем не применяется в действительно серьезных масштабах семантическая информация (хотя обо всех системах утверждается, что в какой-то мере они такую информацию учитывают). Большинст­во (если не все) из этих систем действуют по принципу „ученого идиота": перерабатывают, пользуясь методом „грубой силы", огром­ные объемы очень примитивной информации, имеющей сугубо прагматический характер, определяют посредством такой обработки пословные или пооборотные переводные эквиваленты для единиц исходного текста и, производя соответствующие эквивалентные заме­ны, сопровождают их локальными изменениями в порядке слов; перевод, даже если его можно понять, получается в результате совершенно хаотичным.

Но ведь эти системы работают! Во всяком случае, работают некоторые из них, и притом достаточно хорошо, чтобы их пользо­ватели считали целесообразным идти на те огромные затраты вре­мени и капитала, которых требует разработка крупных специализи­рованных словарей, ориентированных на соответствующие задачи. Скорость перевода, безусловно, возрастает. Трудности, испыты­ваемые переводчиками, в каких-то случаях увеличиваются, в каких- то — уменьшаются (похоже, что, помимо всех прочих факторов, здесь имеют существенное значение личные особенности перевод­чика). Часть переводчиков противится внедрению систем МП и ЧМП, но ведь кое-кто до сих пор противится — с большим или меньшим успехом — и использованию пишущих машинок, не говоря уже о средствах экранного редактирования. Большинство, однако, склон­но согласиться с тем, что компьютерам есть место в процессе пере­вода; а некоторые даже лелеют надежды на избавление за этот счет от значительной части выполняемых ими сейчас рутинных операций. К современным системам МП нужно, по-видимому, некоторое время привыкать, и по мере этого привыкания производительность труда постепенно растет; обычно дело кончается тем, что уставший от однообразной и скучной работы переводчик начинает воспринимать такие системы как благо. В настоящее время на рынок поступают все новые системы, реализованные в рамках той же устаревшей технологии; большинство из них оказываются нежизнеспособными и быстро исчезают из обращения. Однако те системы, которые сохраняют свой коммерческий статус годами, надо полагать, прино­сят своим пользователям экономическую выгоду, иначе, вероятно, они бы уже не существовали.

Системы, находящиеся в процессе разработки

Системы, разрабатываемые сейчас в расчете на внедрение в бли­жайшее время, опираются на достижения компьютерной лингвистики (КЛ) конца 70-х, а то и начала 80-х годов. По существу, все они ориентированы на полностью автоматизированный МП, а не на ЧМП. Как отмечается в работе Hutchins, 1982, «...в настоящее время в значительной степени общепризнанным является тот подход к прин­ципиальной стратегии МП, согласно которому перевод должен осу­ществляться в системе через посредство межъязыковых операций с использованием для упрощения ее межъязыкового компонента определенных процедур семантического анализа, а также определен­ных элементов языка-посредника». Во всех системах, о которых идет речь, применяются те или иные из новейших методов анализа/преоб­разования, как правило, основанные на использовании граф-схем, независимо от того, задаются ли грамматические сведения о языке с помощью правил грамматики непосредственно составляющих — как, например, в системе METAL — или в терминах деревьев (цепо­чек деревьев) — как в системе GETA или EUROTRA. Обработка текста ведется на уровне предложений или на еще более высоких уровнях с широким привлечением семантических характеристик. Идеи простой пословной замены исходных единиц выходными, как и „лобовые" методы программирования, уступили место соответст­венно более или менее изящным лингвистическим теориям и эвристи­ческим принципам разработки программного обеспечения. Если в процессе анализа исходного текста удается получить представление требуемого вида, можно с достаточной степенью уверенности ожи­дать, что перевод окажется приемлемым для постредактора; на случай же, если такого представления получить не удастся, пре­дусматриваются специальные средства повышения устойчивости работы системы при отказах, позволяющие получать результаты, сходные с теми, которые обеспечиваются ныне действующими про­мышленными системами МП.

Системы рассматриваемого типа работают в экспериментальном режиме достаточно хорошо, чтобы и те, кто их финансирует, и те, кто рассчитывает в дальнейшем стать их пользователями,— не гово­ря уже о самих разработчиках — имели все основания надеяться на их успешное практическое применение уже в самом ближайшем будущем. Технология этих систем воплощает в себе те из новейших методологических инструментов и принципов, которые представляют­ся пригодными для непосредственного практического применения в широких масштабах. Большинство подходов, разрабатываемых в рамках „чистого ИИ", не подпадают под эту категорию; поэтому серьезные исследователи, занимающиеся проблемами ИИ, смотрят на разрабатываемые в настоящее время системы МП (не говоря уже об имеющихся промышленных системах) сверху вниз, считая их устаревшими, неинтересными, а возможно, и бесполезными. В отно­шении каких-то из них это, должно быть, справедливо. Однако другие системы, сколь бы „устаревшими" они ни были, вскоре найдут себе место при решении практических задач и начнут вытеснять те из современных промышленных систем МП, которые будут составлять им конкуренцию. (Поскольку все системы МП, подготавливаемые сейчас к промышленной реализации, ориентированы, по-видимому, на задачи „распространения информации", ныне действующие про­мышленные системы, спрос на которые связан с задачами „сбора информации", могут, вероятно, сохранить свои позиции в течение еще некоторого времени.) Все упирается в основном в проблему времени: время нужно как на составление и отладку грамматик (это работа очень нелегкая), так и на подготовку словарей, которые в части общей лексики должны включать порядка десяти тысяч единиц, а в части терминологии — по нескольку десятков тысяч терминов на каждую предметную область. В рамках одних из разрабатываемых проектов требуемое время уже затрачено, и созданные системы (например, система GETA) полностью подготовлены к использова­нию в коммерческих целях; другие системы данного класса (напри­мер, система METAL, получившая торговое название L1TRAS) вышли на этот уровень лишь в самое последнее время.

Основная беда исследовательских систем МП заключается в их малочисленности (в США они просто отсутствуют). С подобной ситуацией, может быть, и можно было бы мириться, если бы вопро­сами иностранных языков всерьез интересовались — пусть даже безотносительно к переводу как таковому — те из современных исследователей, которые работают в области КЛ и ИИ. Однако в США эти вопросы занимают очень немногих, а в Европе исследо­вания по проблемам КЛ и ИИ еще не достигли такого уровня, как в США. Деловые и промышленные круги в странах Запада больше интересуются тем, что обещает отдачу в кратчайшие сроки; некото­рые фирмы проявляют внимание к промышленно ориентированным системам, находящимся в процессе разработки, но непосредственную финансовую поддержку разработкам в области МП оказывают очень немногие из них, а чисто исследовательские работы по этой проблематике не финансирует в сколько-нибудь существенных масштабах практически ни одна из торговых или промышленных организаций. (Собственно говоря, на Западе есть, по-видимому, только одна фирма, ведущая долгосрочные исследования по МП,— голландская компания „Phillips".) Крупные проекты исследований и разработок по МП финансируются правительствами ряда евро­пейских стран (в частности, ФРГ и Франции), однако по объему своих капиталовложений в данную исследовательскую область все страны мира далеко уступают Японии. Правительство США, которое по другим направлениям ИИ и КЛ (в части английского языка) финансирует лучшие в мире фундаментальные разработки, в иссле­дованиях по МП не принимает никакого участия.

Что касается тех (все же существующих) групп, которые ведут чисто научные исследования в области МП, то большинство из них склонны концентрировать свои усилия на проблемах глубинного представления значения, ставя своей целью построение системы ИИ в подлинном смысле этого слова — системы, которая должна, как предполагается, предусматривать представления значений, независи­мые от конкретных естественных языков и отличающиеся большой глубиной и сложностью. Перевод выступает при этом всего лишь как одно из возможных направлений применения такой системы: ра­бота ее заключается в том, что она вначале „понимает" входной текст на естественном языке, а затем „порождает" выходной текст, также на естественном языке; если эти языки различны, то тем са­мым обеспечивается перевод, получаемый посредством перефрази­рования. Перевод можно рассматривать, таким образом, как один из решающих критериев адекватности функционирования систем ИИ: если система „переводит правильно", то это может в какой-то степени служить аргументом в пользу того, что она „правильно поняла" переводимый текст; во всяком случае, может многое сообщить нам о том, о чем идет речь в переводе. В этой своей функции исследования в области МП являются особенно многообещающими и имеют хоро­шие перспективы вновь войти в число престижных научных направ­лений. Для этого, однако, прежде всего требуется, чтобы существо­вали такие исследовательские коллективы, которые интересовались бы изучением различных языков и проблемами перевода с одних из них на другие под углом зрения ИИ и которым были бы предостав­лены необходимые для соответствующих исследований ассигнования. В настоящее время наличием подобных коллективов может по­хвастаться только Япония и в несколько меньшей степени Западная Европа.

ДАЛЬНЕЙШИЕ ПЕРСПЕКТИВЫ

За два десятилетия, прошедшие со времени доклада комитета ALPAC, в мире произошли большие перемены. Потребности в техни­ческом переводе и спрос на него резко выросли, существенно опе­редив при этом темпы роста контингента квалифицированных техни­ческих переводчиков. (Впрочем, еще вопрос, хватало ли квали­фицированных технических переводчиков в 1966 г., что бы ни ут­верждалось об этом в докладе ALPAC.) Классический „закон соответствия спроса и предложения" в данном случае по каким-то причинам пока не сработал: нехватка переводчиков — это реальный факт, наблюдаемый повсеместно во всем мире; предотвратить даль­нейшее усугубление сложившейся ситуации пока еще никакими средствами не удается; и похоже, что никакие средства, кроме резкого повышения производительности переводческого труда за счет его автоматизации с помощью ЭВМ, не способны это обеспечить. В ЕЭС, например, ожидается, что потребности в техническом переводе, которые уже сейчас подавляют своими масштабами, в те­чение ближайшего пятилетия должны вырасти в шесть раз.

В будущем можно надеяться, что переводчики станут более широко использовать — при техническом переводе — весь арсенал предоставляемых в их распоряжение вспомогательных машинных средств: от систем экранного редактирования и терминологических банков, работающих в режиме „он-лайн", до систем МП. Соответст­венно системы (Ч)МП будут пользоваться большим успехом на рынке. По мере того как эти системы будут сбивать цены на пере­вод, спрос на него и производственные возможности в этой области будут расти в еще больших размерах, чем они росли бы в ином случае; обнаружат свое существование многие „новые" сферы, где ощущается потребность в переводе, но где в настоящее время он себя экономически не оправдывает. И поскольку системы МП при­дется вновь совершенствовать, с тем чтобы еще больше облегчить то бремя, которое ложится на переводчика-человека, постольку возрастет и нужда в дальнейших исследованиях и разработках в данной области.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Исследования и разработки в области МП, ведущиеся в Японии: