Исследования и разработки в области МП, ведущиеся в Японии
В 1982 г. Япония взбудоражила весь промышленный мир, широко разрекламировав свой проект ЭВМ пятого поколения и создав в качестве базовой организации для осуществления этого проекта Институт вычислительной техники нового поколения (ИВТНП).
Цель проекта состоит в том, чтобы Япония одним прыжком обогнала Запад по своему технологическому уровню и в девяностых годах нашего века встала во главе всей мировой электроники и информатики. Основным инициатором этого проекта является Министерство внешней торговли и промышленности Японии, которое рассчитывает достичь поставленной цели путем разработки и реализации революционной методологии и технологии как в сфере архитектоники ЭВМ, так и в области искусственного интеллекта (ИИ).Среди возможных областей практического применения предполагаемых результатов, рассматривавшихся учеными и инженерами ИВТНП, важное место занимала область машинного перевода (М о t о - о к а, 1982). Для западных ученых, занимающихся проблемами искусственного интеллекта, включение МП в это рассмотрение представляется совершенно неуместным: в течение двух десятилетий, прошедших со времени разгромного доклада комитета ALPAC, они столь упорно (и столь успешно) игнорировали всю ту работу, которая велась в области МП, что почти единодушно полагают, будто в ближайшем будущем достичь в ней сколько-нибудь успешных результатов невозможно, пребывая при этом в полном неведении относительно того, что уже существуют успешно работающие и экономически рентабельные практические системы. Для японского руководства, однако, учет МП отнюдь не случаен. Если оставить в стороне обучение иностранным языкам, перевод иностранной документации на японский язык служит все еще одним из основных каналов, по которым японские исследователи получают информацию о том, что делают их западные конкуренты и как именно они это делают. Перевод же с японского языка на другие необходим в качестве предпосылки экспорта японской продукции на внешние рынки, поскольку покупатели настаивают на том, чтобы технические руководства и другая документация были написаны не только по-японски; кроме того, перевод вообще расценивается как средство «обеспечить проникновение японской научной и технической информации во внешний мир» (М.
Нагао, устное сообщение). Японцы справедливо полагают, что перевод жизненно необходим им как средство сохранения конкурентоспособности в области технологии; но они убедились, что обеспечивать его только за счет человеческого труда крайне сложно, не говоря уже о дороговизне: по суммарным оценкам, японские компании ежегодно расходуют на перевод более 1 триллиона иен, и большая часть этих расходов связана с торговлей на экспорт (R h і 1 і р р і, 1985). Поэтому японское правительство, а также японские промышленные круги в течение уже нескольких десятилетий финансируют исследования по машинному переводу. И в Японии нет той пропасти между исследователями в области ИИ и в области МП, которая разделяет их в странах Запада, особенно в США.По сведениям, приведенным в N о m и г а, 1982, в Японии насчитывается более 18 групп, которые занимаются исследовательскими разработками в области МП. (Укажем для сравнения, что в США и в Европе, вместе взятых, найдется — с учетом фирм—поставщиков коммерческих систем — лишь дюжина аналогичных групп, которые бы заслуживали внимания.) Ряд японских проектов имеет весьма крупные масштабы. (В западном мире, к сравнению, есть только один проект — EUROTRA,— который хотя бы по внешним признакам можно считать крупномасштабным, однако большинство из 80 занятых в нем сотрудников посвящают ему лишь часть своего рабочего времени.) Очень многие японские проекты предусматривают не только создание конкретных систем, но и фундаментальные исследования. (Большинство аналогичных проектов на Западе ориентированы исключительно на конкретные разработки.) Японцы не сразу сумели добиться успеха в области МП: до самого последнего времени этому мешало их отставание в области технологии изготовления аппаратного оборудования, равно как и недостаточная компетентность в отношении программного обеспечения; однако вот уже несколько лет, как ситуация стала быстро меняться. Дополнительным препятствием служило то, что японский язык характеризуется существенными отличиями от западных языков, особенно от английского, который интересует японцев больше всего, и известно об этих отличиях относительно мало.
Японцы работают над тем, чтобы восполнить эту недостающую информацию, и определенный прогресс здесь уже достигнут: создан ряд систем, качество работы которых уже приемлемо для некоторых видов их промышленной эксплуатации. Ни одна из японских систем не опирается на „прямую" стратегию перевода, и во всех них реализуется глобальный подход к анализу; в большинстве систем перевод осуществляется с использованием межъязыковых операций, но есть и несколько групп, исследующих возможности перевода через язык-посредник.В Киотоском университете разработки в области МП были начаты в 1964 г. Одно время в Киото велась работа по двум проектам исследований в этой области (один проект был ориентирован на долгосрочные исследования, другой — на создание в короткий срок системы, допускающей практическое применение). Первый проект, работы по которому не так давно прекращены, предусматривал создание системы англо-японского МП, основанной на формальносемантическом подходе (использовалась упрощенная версия грамматики Монтегю, предложенная М. Дж. Крессуэллом (N і s h і d a et al., 1982; 1983)). В рамках второго проекта была построена практическая система, служащая для перевода с английского на японский язык заглавий научно-технических статей (N a g а о, 1980; 1982), а теперь разрабатываются другие прикладные системы как англояпонского МП (Т s u j і і, 1982), так и японско-английского (N a g а о, 1981). В этих разработках, финансируемых Управлением по науке и технике и возглавляемых проф. М. Нагао, «занято более 20 человек [в Киото], а также участвуют три другие организации [предоставляющие еще 20 сотрудников]» (М. Нагао, устное сообщение). Рассчитанный на четырехлетний период и предусматривающий финансирование в объеме 2,7 млн. американских долларов, данный проект имеет целью создание практической системы японско- английского и англо-японского МП для научно-технической документации (Philippi, 1985). Исследования в области МП проводятся также начиная с 1955 г. в Университете Кюсю, где осуществляются проекты Тамати и Сюдо (S h u d о, 1974).
Кроме того, проекты систем МП разрабатываются в Университете префектуры Осака и в Университете Фукуока.Однако большая часть исследований по проблемам МП (как и исследований по другим направлениям) осуществляется в Японии силами лабораторий, принадлежащих промышленным фирмам. Крупномасштабные проекты (нацеленные в основном на перевод руководств по вычислительной технике) финансируются, в частности, такими компаниями, как „Фудзицу" (Sa wai et al., 1982), „Хита- ти", „Тосиба" (A m а п о, 1982), корпорация „NEC" (М и г а к і & 1 с h і у a m а, 1982) и др. Ведутся соответствующие разработки и Японской телеграфной и телефонной компанией „NTT", в рамках которой создается система японско-английского и англо-японского МП, рассчитанная на перевод научно-технических статей (Nomura et al., 1982); в будущем имеются в виду и такие далекие перспективы, как синхронный машинный перевод телефонных разговоров (X. Номура, устное сообщение). Относительно недавно завершена англо-японская система МП, разрабатывавшаяся совместными усилиями компаний „Хитати" и „Quick"; система будет использоваться для информирования японского читателя о событиях, происходящих в Европе и в США в области экономики, на фондовой бирже и в сфере товарного производства; в конечном итоге такое обслуживание будет предоставляться через службу биржевой информации фирмы „Quick" в режиме „он-лайн". Кроме того, о создании своей системы МП Atlas, обеспечивающей двусторонний (японско-английский и англо-японский) перевод технических текстов, объявила фирма „Фудзицу"; в настоящее время эта система предоставляется в аренду (ААТ, 1984). Компании „NEC" и „IBM Japan" также сообщили недавно о том, что ведут работу над системами МП, которые, как предполагается, должны вскоре получить коммерческий статус (Philippi, 1985).
Интересы японских промышленных кругов не ограничиваются только разработками, ведущимися в самой Японии. С предложениями финансировать проекты исследований и разработок в области МП японские компании обращались также к ряду американских групп, занимающихся проблемами ИИ (например, к фирме ,,SR1 International"), и в настоящее время корпорация „Хитати" финансирует исследования, связанные с проблематикой МП, в Центре лингвистических исследований Техасского университета.
Более того, в последнее время ряд американских компаний — поставщиков систем МП (по крайней мере компании „SYSTRAN" и „Weidner”) продали часть своих акций японским вкладчикам и предоставили им промышленные системы МП. Многие японские корпорации (например, корпорации „NTT" и „Хитати") и торговые объединения (например, JE1DA — Японская ассоциация по развитию электронной промышленности) неоднократно посылали группы своих сотрудников в разные страны мира для ознакомления с ведущимися там разработками в области МП и для оценки общего состояния дел в этой области. Отдельным ученым из японских университетов предоставлялись годичные отпуска для работы в западных центрах исследований по МП (проф. К. Сюдо приезжал в Техас, проф. Дз. Цудзии — в Гренобль). От ряда других специалистов известно о стремлении Японии установить тесные рабочие связи с группой, работающей по проекту EUROTRA в рамках Комиссии Европейских Сообществ (М. Кинг и М. Нагао, устное сообщение). Все это свидетельствует о намерениях Японии в течение длительного времени и во все возрастающих масштабах вести работу по освоению и развитию технологии МП. Японские руководители убеждены, что успех в области МП имеет жизненно важное значение для их страны.Система METAL
Группа, которая занимается исследованиями и разработками в области МП в Центре лингвистических исследований Техасского университета,— одна из ведущих групп такого типа во всем мире — разработала в рамках проекта METAL немецко-английскую систему МП коммерческого уровня. В конце 1982 г., в середине 1983 г. и дважды в течение 1984 г. система подвергалась испытаниям в условиях, аналогичных тем, которые имеют место при промышленной эксплуатации, лосле чего она была установлена в ФРГ в организации, финансировавшей работы по ее созданию, для прохождения дальнейших испытаний и для окончательной доводки тех ее подсистем, которые обеспечивают интерфейс с переводчиком. В апреле 1985 г. эта система, получившая коммерческое название L1TRAS, была предложена покупателям на ярмарке в Ганновере (ФРГ).
В настоящее время ведется работа по расширению словарей системы METAL, с тем чтобы обеспечить максимально полное покрытие с их помощью текстов, относящихся к соответствующим техническим отраслям; начата также серьезная работа над другими языковыми парами.Одним из важных достоинств системы METAL следует считать то, что в ней реализован ряд различных лингвистических теорий и/или стратегий. Подсистема анализа немецких текстов опирается на контекстно-свободную грамматику непосредственно составляющих, расширенную за счет процедур, позволяющих, среди прочего, задавать произвольные трансформации. В то же время подсистема анализа, разработанная для английского языка, использует модификацию обобщенной грамматики непосредственно составляющих и не предполагает трансформаций. Процедуры анализа полностью отделены от межъязыковых операций, и система является многоязычной в том смысле, что получаемая в результате анализа структура составляющих может служить основой для межъязыковых операций и процедур синтеза, обеспечивающих перевод исходной фразы на различные выходные языки. (В качестве эксперимента осуществлялся перевод с немецкого языка на китайский и испанский, а также с английского на немецкий.)
Подсистема межъязыковых операций в системе METAL включает два пакета трансформаций: к одному из них отсылают правила межъязыковой грамматики, ко второму — межъязыковые словарные статьи. Процесс межъязыковых операций предусматривает взаимодействие тех и других и осуществляется путем просмотра дерева составляющих, построенного на этапе анализа (и получившего более высокую оценку, чем альтернативные деревья) в направлении сверху вниз. Порядок обхода дерева при движении по нему сверху вниз определяет лингвист — составитель правил межъязыковых операций. Чаще всего такие правила ставятся во взаимно-однозначное соответствие с грамматическими правилами, работающими в ходе анализа исходного текста, так что поиск правил, релевантных в том или ином частном случае, не требует просмотра всей межъязыковой грамматики в целом (который был бы чреват опасностью ошибочного выбора отдельных правил). Предусмотрена, однако, и возможность использования межъязыковой грамматики более общего типа; реально такая более общая грамматика применяется при переводе придаточных. Как можно понять из предыдущего, и структурные, и лексические межъязыковые операции осуществляются за один проход, так что работа правил каждого из этих двух типов может зависеть от результатов выполнения правил второго типа; в частности, в статьях межъязыкового словаря может указываться, в каких синтаксических и/или семантических контекстах допустимы соответствующие лексические единицы. Если для исходной цепочки слов не удалось построить ни одного полного варианта ее структуры, на этапы межъязыковых операций и синтеза (независимые от этапа анализа) подается последовательность самых крупных из полученных в ходе анализа частичных составляющих, покрывающих в совокупности всю рассматриваемую входную цепочку. Таким образом, некоторый перевод может быть получен для любой цепочки слов (будь то предложение или, быть может, отдельная составляющая), поступившей на вход системы.
В дополнение к системе МП как таковой группа Техасского университета разработала ряд пакетов программного обеспечения, служащих для форматирования текста (с тем чтобы результаты перевода выдавались в том же формате, в каком поступает в систему исходная документация), для управления базами данных (массивами словарных статей и грамматических правил), для верификации правил (в целях устранения возможно большего числа ошибок в словарях и грамматиках), для составления словарей (чтобы повысить эффективность работы человека по представлению словарных статей в закодированном виде) и т. д. Если оставить в стороне такой периферийный компонент системы, как средства экранного редактирования (их разрабатывала финансирующая организация), группа METAL создала фактически всю систему МП в целом, а не просто основной механизм машинного перевода, оставляющий на долю своих разработчиков/пользователей значительную часть рутинной работы. (Более подробное описание системы METAL см. в: Lehmann et al., 1981; Bennett, 1982; Slocum, 1983; 1984; 1985).
Как уже говорилось, группа GETA была сформирована после того, как Гренобльский университет отказался от продолжения работ над системой СЕТА. Учтя все те недостатки, которые влечет за собой ориентация на язык-посредник, группа GETA решила реализовать в своей новой системе подход, предполагающий использование при переводе этапа межъязыковых операций. Принципы организации программного обеспечения системы также были в большинстве своем пересмотрены, и вместо прежнего был разработан новый пакет программного обеспечения, позволяющий по-новому организовать весь процесс обработки. Ядро системы перевода GETA названо AR1ANE-78 и складывается из трех типов программ: программы первого типа преобразуют линейные цепочки в деревья (например, при морфологическом анализе), программы второго типа преобразуют одни деревья в другие (например, при синтаксическом анализе и в ходе межъязыковых операций), программы третьего типа преобразуют деревья в линейные цепочки (например, при морфологическом синтезе). (Существует также четвертый тип программ, но его можно трактовать как частный случай одного из перечисленных трех типов.) Весь процесс перевода разбит на ряд последовательно выполняемых этапов обработки текста, на каждом из которых используется один из этих типов программ. Кроме того, в системе AR1ANE-78 имеются модули, обеспечивающие функции редактирования, а также функции поддержки системы.
Одна из особенностей системы AR1ANE-78, отличающая ее от других систем МП, состоит в последовательном проведении ее создателями того принципа, что ни на одном из этапов не должны применяться средства, обладающие большей мощностью, чем та, которая минимально необходима для должного выполнения задач данного этапа. Таким образом, вместо того, чтобы предоставлять в распоряжение лингвиста программные средства, позволяющие задавать абсолютно любые операции,— такой тип средств, характеризующихся произвольной мощностью, представляют собой, например Q-системы, разработанные в рамках проекта TAUM,— система AR1ANE-78 предусматривает на каждом этапе лишь тот минимум возможностей, который необходим для осуществления операций, требуемых на этом этапе, и не более того. Это уменьшает вероятность того, что лингвист, увлекшись, переусложнит свое описание; с другой стороны, программистам благодаря введенным ограничениям удалось добиться большего быстродействия программного обеспечения, чем было бы возможно при более общей его схеме.
„Грамматикой" в подсистеме ROBRA называется фактически сеть подграмматик; то есть грамматика задается в виде графа, определяющего все возможные варианты того, в какой последовательности могут применяться разные подграмматики и какие вообще из этих подграмматик могут быть выбраны для применения. Грамматика высшего уровня представляет собой в результате „граф управления" относительно тех подграмматик, которые непосредственно осуществляют лингвистические операции — процедуры анализа, межъязыковые преобразования и т. п. Система ARIANE-78 обладает достаточной степенью общности, чтобы в ее терминах можно было реализовать любую лингвистическую теорию, а при желании — и несколько разных теорий одновременно (в составе разных подграмматик). Таким образом, в принципе она является абсолютно открытой и могла бы служить базой для любых видов семантической обработки и для работы с любыми „моделями мира", как бы они ни были описаны.
На практике, однако, дело обстоит не так просто. Для того чтобы в рамках данной системы можно было учитывать принципиально новые лингвистические теории, и особенно „модели мира", необходимо было бы увеличить гибкость процедур машинной обработки, а это потребовало бы многочисленных и разнообразных изменений в программном обеспечении. К сожалению, то программное обеспечение, на которое опирается система AR1ANE-78, является весьма жестким (поскольку написано на языках программирования низкого уровня), и модифицировать его поэтому чрезвычайно трудно. В результате группа GET А не имеет возможности проводить экспериментальную проверку каких-либо принципиально новых стратегий автоматической обработки текстов. Известно, например, с какими трудностями сталкивается система GETA в связи с проблемой возвратов (Дз. Цудзии, устное сообщение): если обработка идет „по ложному пути" в той части, которая касается графа управления подграмматиками, некоторые из полученных результатов могут быть пересмотрены путем возвращения назад с пропуском целых графов, то есть путем игнорирования всей информации, сформированной в ходе применения тех или иных подграмматик в целом: в пределах же отдельной подграмматики возможность вернуться на несколько шагов, отказавшись от учета тех изменений в обрабатываемых данных, которые внесены применявшимися на этих шагах индивидуальными правилами, не предусмотрена. Чтобы программное обеспечение системы можно было как в настоящее время, так и в будущем модифицировать без особого труда, его нужно переписать на языке программирования высокого уровня (стоит вопрос о языках ЛИСП или ПРОЛОГ), и пока группа GETА не получит достаточно крупных субсидий, чтобы взять программистов, которые бы это сделали, она останется „связанной" имеющимся программным обеспечением — а оно явно начинает устаревать, не говоря уже о невозможности переноса его на другие машины (кроме тех, которые выпускаются фирмой „IBM").
На ранних этапах работы группы GETA от нее, по-видимому, не требовалось создания полностью законченной практической системы, и сотрудники этой группы могли в значительной степени руководствоваться в своей работе чисто научными интересами. Однако, если программное обеспечение системы GETA не будет обновлено, она может вскоре потерять жизнеспособность. (Сотрудники группы прилагают в настоящее время активные усилия к тому, чтобы изыскать средства для выполнения требуемых работ.) Одновременно с этим правительство Франции взяло на себя финансирование Национального проекта по МП, предусматривающего крупномасштабные разработки по практическому внедрению системы GETA и превращению ее в коммерческую систему; для программной реализации системы решено использовать язык программирования ЛИСП (Ф. Пекку, устное сообщение).
Система SUSY[52]
В Саарском университете в г. Саарбрюкен (ФРГ) осуществляется один из крупнейших в Европе проектов исследований по МП, работы по которому ведутся с конца 60-х годов. После неудачных попыток адаптировать для целей русско-немецкого МП джорджтаунскую систему GAT была начата разработка новой системы, построенной отчасти на тех же принципах. Процесс перевода русских текстов на немецкий язык происходит в этой системе с использованием межъязыковых операций, которым предшествует „глобальный" анализ переводимого предложения, позволяющий представить его структуру в терминах деревьев зависимостей. В отличие от большинства других групп, работающих в области МП, перед саарбрюккенской группой не ставилась задача создания практических систем МП, так что она имела относительно широкие возможности для чисто научных исследований; в то же время уровень финансирования этой группы был достаточно высок, чтобы она могла постоянно вести серьезную экспериментальную работу, а также вносить в систему разнообразные модификации. В результате для системы SUSY была в большей степени, чем для других систем, характерна тенденция отражать в себе те внешние по отношению к ней изменения, которые происходили в области МП и ИИ. Так, в 1974 г. саарбрюк- кенская группа (наряду с гренобльской и с некоторыми другими) приняла участие в создании совместной группы исследований по МП LEIBNITZ. До 1975 г. в системе SUSY последовательно проводился подход к МП, основанный на использовании межъязыковых операций; начиная с 1975 г. она стала развиваться в направлении большей абстрактности: необходимость обращения при решении ряда лингвистических проблем к более „глубинным" уровням анализа привела к тому, что представления, фигурирующие на этапе межъязыковых операций, приобрели значительную степень общности, свойственную языку-посреднику. Еще одним следствием такой свободы в выборе направления научных исследований явилось то, что разработчики системы не предпринимали сколько-нибудь последовательных попыток обеспечить покрытие текстов по той или иной конкретной области, достаточное для нужд конечного пользователя.
Первоначально система SUSY разрабатывалась как многоязычная система, охватывающая такие языки, как английский, французский, немецкий, русский и эсперанто; впоследствии, однако, основные усилия были сосредоточены на разработке русско-немецкого, а в последнее время — также англо-немецкого МП. Наиболее серьезные ограничения, препятствующие дальнейшей разработке системы SUSY, связаны, по-видимому, с той изначальной теоретической концепцией, которая была положена в ее основу. В системе принят тот примитивный подход, при котором лингвистические правила распределялись по нескольким принципиально независимым уровням, а в тех случаях, где это диктуется соображениями эффективности, включались непосредственно в программное обеспечение (Maas, 1984). Соответственно эти правила оказались практически необозримыми, а их взаимодействие между собой при обработке текстов в конечном итоге почти перестало поддаваться контролю. Поэтому, если говорить о системе SUSY с точки зрения возможностей практического применения, ее, по-видимому, следует признать неудачной, даже при том, что она используется (в рамках университетских проектов) для перевода патентных описаний и других материалов. Быть может, системе SUSY-11, работа над которой началась в 1981 г. в рамках второй очереди данного проекта, повезет больше.
Система EUROTRA
Проект EUROTRA является самым крупным из всех западных проектов систем МП. Это первая серьезная попытка создать подлинно многоязычную систему, в данном случае систему, охватывающую все семь языков Европейского экономического сообщества. Нужда в этом проекте вызвана действием простых и неумолимых экономических факторов: в 1982 г. более трети всех бюджетных ассигнований, выделенных в ЕЭС на административные цели, было израсходовано на оплату труда сотрудников отдела переводов (в среднем на одного сотрудника приходилось 43 ООО долларов в год), и все же отделу не удалось выполнить то, что от него требовалось, в полном объеме. Технический перевод обходится ЕЭС в 20 центов за каждое слово переводного текста; при том, что все материалы приходится переводить на шесть разных языков (с того седьмого языка, на котором написан оригинал), стоимость технической документации в результате удваивается. После приема в ЕЭС Испании и Португалии штат переводчиков — при сохранении потребностей в переводе на современном уровне — придется удвоить (если только к тому времени не будут уже введены в эксплуатацию высокопродуктивные машинные средства) (Р е г u s s е, 1983). Недостатком системы SYSTRAN является высокая стоимость составления требуемых для нее словарных статей; в настоящее время это оправдывается повышением скорости перевода, однако в перспективе такая ситуация перестанет быть приемлемой. ЕЭС нуждается в МП более высокого качества при более низкой стоимости лексикографических работ. Справиться же со всем объемом переводов за счет одного только человеческого труда в принципе невозможно.
Проект EUROTRA является транснациональным в подлинном смысле этого слова. В его рамках не предусматривается какой-либо центральной лаборатории, где бы велась основная работа. Вместо этого каждая страна — участница проекта поручает определенным университетам, выступающим в качестве ее представителей, разработать те модули системы, которые должны обеспечивать анализ и синтез текстов на родном языке разработчиков. Центральная группа должна будет создавать только модули, задающие межъязыковые операции, а эти модули предполагается строить в минимальном варианте, ограничиваясь, по возможности, только лексическими заменами (King, 1982). Разработка программного обеспечения будет почти полностью отделена от разработки лингвистических правил; более того, хотя структура программного обеспечения будет выработана сотрудниками, участвующими в проекте EUROTRA, заказ на разработку самого этого обеспечения для промышленной версии системы может быть передан любой фирме, производящей коммерческий программный продукт, так что контракт будет заключен с той фирмой, которая предложит более выгодные условия, чем ее конкуренты. Согласованность работы отдельных групп, описывающих разные языки и разные аспекты системы, обеспечивается деятельностью нескольких координационных комитетов.
Лингвистическая теория, на которую опирается система EUROTRA, не являет собой чего-либо принципиально нового. Основной тип структур, в терминах которых представляется „смысл",— это деревья зависимостей, снабженные пометами вида „признак — значение признака". Инвентарь таких помет в одной своей части оставлен на усмотрение тех лингвистических групп, которые разрабатывают грамматики конкретных языков (каждая группа может добавлять любые пометы, какие она сочтет нужными); другая же часть этого инвентаря установлена по согласованию со всеми группами (принято общее соглашение относительно того набора пар „признак — значение признака", с помощью которого может быть задан необходимый минимум информации; от всех групп требуется, чтобы разрабатываемые ими подсистемы анализа предложений на том или ином языке предусматривали получение в ходе анализа всех помет из данного набора, и все группы могут рассчитывать на то, что все эти пометы будут присутствовать в той исходной информации, которая будет поступать на вход разрабатываемых ими подсистем синтеза) (King, 1981; 1982). Сказанное отнюдь не означает, что работа над системой EUROTRA не дает никакой новой лингвистической информации: помимо того, что с помощью этой системы можно будет проверить адекватность используемой теоретической модели, весьма существенное научное значение имеют также те фундаментальные контрастивные лингвистические исследования, которые ведутся в связи с проектом EUROTRA начиная примерно с 1978 г.
Программное обеспечение системы EUROTRA в некотором смысле также не будет отличаться особой новизной. В качестве основного интерпретатора лингвистических правил будет использоваться «система правил переписывания общего типа и согласованный с ней язык управления грамматиками и/или процессами» (М. Кинг, устное сообщение). Как и в системе AR1ANE-78, лингвистические правила будут объединяться в пакеты (подграмматики), и лингвисты будут иметь в своем распоряжении средства управления, позволяющие им определять то, какие пакеты правил и в какой момент должны будут применяться. Сами отдельные правила будут представлять собой правила переписывания без разрушения, так что при применении любого такого правила может быть сформирована некоторая новая структура, но не может быть стерта какая-либо старая информация.
В некотором другом смысле, однако, система EUROTRA принципиально отлична по своему программному обеспечению от других, предшествовавших ей систем. Общий порядок осуществления анализа, межъязыковых операций и синтеза не будет предопределяться теми алгоритмами, которые разрабатывают программисты. Вместо этого его будут задавать лингвисты, пользуясь в этих целях специальным управляющим языком (отличным от языка для записи правил, который не зависит от алгоритма). Полученная формальная запись динамической стратегии управления будет далее подвергаться компиляции, а результирующая программа будет обеспечивать интерпретацию тех „статических" правил, которые описывают факты языка.
Это смелый шаг. Любое действие подобного рода, безусловно, связано с риском. Помимо обычной опасности возникновения непредвиденных осложнений, здесь имеется еще две достаточно очевидные проблемы, которые остаются пока еще не решенными. Во-первых, совершенно неясно, в какой мере лингвисты, привыкшие работать в рамках статических, „дескриптивных" лингвистических подходов (современных или любых других), сумеют освоиться с динамическими, алгоритмическими средствами описания — с тем способом мышления, которым гораздо лучше владеют программисты (в том числе почти все лингвисты, занимающиеся компьютерной лингвистикой). Во-вторых, опять-таки совершенно неясно, удастся ли организовать систему достаточно гибким образом, чтобы на ее основе можно было реализовать все то множество экспериментальных вариантов стратегии обработки текстов, которое не замедлят предложить разработчики системы, получив такую свободу действий (вспомним, что реализация программного обеспечения мыслится как задача в принципе одноразовая, которая должна быть выполнена на договорной основе). При этом гибкость должна сочетаться в системе с достаточным уровнем быстродействия, чтобы машинная обработка текстов оставалась целесообразной. Проблема целесообразности встает отнюдь не только в связи с той промышленной системой, которая должна явиться конечным продуктом разработки. Напротив, исключительно важно, чтобы сами разработчики имели возможность, проводя свои эксперименты, получать результаты в пределах какого- то разумного промежутка времени. Если ожидание результатов слишком затягивается, разница становится уже не количественной, а качественной и эффективность работы существенно — а быть может, и катастрофически — падает.
В соответствии с намеченным графиком работ по проекту EUROTRA небольшая эскизная прототипическая система должна быть подготовлена к концу 1987 г., а система-прототип, покрывающая одну область техники,— к концу 1988 г. В число языков, с которых и на которые система должна обеспечивать перевод, должны входить официальные языки всех тех стран — членов ЕЭС, которые подпишут „договор о присоединении"; таким образом, не требуется, чтобы в системе были обязательно представлены все семь языков ЕЭС, однако по уставу, чтобы работа над проектом могла быть продолжена, он должен охватывать не менее четырех языков. Согласно имеющимся сведениям, требуемое число стран — членов ЕЭС уже взяли на себя обязательство подключиться к этой работе. Интересно будет узнать, успехом или неудачей завершатся разработки по данному проекту — ведь он претендует на решение более сложных и смелых задач, чем все прочие известные проекты систем МП. В любом случае результаты этих разработок обещают быть поучительными.
СОСТОЯНИЕ ПРОБЛЕМЫ НА СЕГОДНЯШНИЙ ДЕНЬ
Естественные языки в силу самой своей природы различны. Настолько различны, что иллюзорные надежды на некое абстрактное совершенство перевода — совершенство, которое когда-то казалось, а кому-то и до сих пор кажется достижимым,— можно спокойно исключить из области реальных возможностей независимо от того, идет ли речь о машине или о человеке. Даже абстрактное понятие „качества" оказывается неопределимым, а следовательно, не поддается измерению. Вместо него приходится использовать понятие оценки перевода по степени его приемлемости для определенных целей в соответствии с критериями потребителя. Необходимо поэтому признать ту истину, что понятие качества принципиально субъективно. Разумеется, всегда найдутся такие переводы, которые большинство, если не все читатели, примут с одобрением и назовут „хорошими", и соответственно всегда найдутся такие переводы, которые будут почти единодушно объявлены „плохими". Тем не менее большинство переводов наверняка займет промежуточное положение между этими двумя полюсами, и каждый пользователь должен будет принимать свое собственное решение в зависимости от своих потребностей.
В профессиональных кругах, однако, существует и всегда существовало рабочее определение „хорошего" vs. „плохого" перевода: хороший перевод — тот, который старшие переводчики согласны передать в пользование посторонним (это не значит, что сами они полностью удовлетворены — такого вообще не случается), а плохой — тот, который они выпускать не хотят. Эти опытные переводчики — обычно выполняющие функции постредакторов — навязывают остальным свою собственную оценку, а те охотно принимают ее на веру: в конце концов на то и существуют старшие переводчики, чтобы давать такую оценку. Формируется она субъективно, с учетом той цели, для которой предназначается рассматриваемый перевод, но вряд ли можно будет когда-либо рассчитывать на более объективную оценку. С точки зрения постредактирования „хорошим" первичным переводом считается тот, который имеет смысл править, то есть тот, который редактор готов попытаться в чем-то изменить, но не собирается отвергать его целиком или заменять своим собственным первичным переводом.
Поэтому при любом разумном подходе к вопросу о состоянии дел в области МП и ЧМП следует также учитывать те рабочие решения относительно качества МП и ЧМП, которые принимаются современными пользователями соответствующих систем. Все эти системы опираются, разумеется, на устаревшую технологию („древнюю", по меркам исследователей, работающих в области ИИ); однако когда на рынках появятся системы, основанные на современной технологии ИИ, то и они в свою очередь окажутся уже устаревшими по сравнению с тем уровнем, который будет достигнут к тому времени в исследовательских лабораториях. Такова природа технологии. Мы будем поэтому, давая свою оценку, разграничивать то, что доступно и/или используется на данный момент („старую", но с рабочей точки зрения ныне действующую технологию), то, что уже „на подходе" (методологические и технологические достижения, реализованные в рамках систем, работающих в настоящее время в исследовательских лабораториях), и то, чего можно ожидать в перспективе (экспериментальные разработки).
Промышленные системы
Промышленные системы (Ч)МП работают на основе устаревшей технологии; так, исходная информация в некоторых из них до сих пор вводится (или до самого последнего времени вводилась) с перфокарт, а переводы печатаются (печатались) только прописными буквами. Очень мало (может быть, и совсем нет) таких систем, в которых предусматривался бы всесторонний глобальный анализ на уровне предложения, и ни в одной системе не делается попыток выйти за пределы предложения, на уровень абзаца. Ни в одной из промышленных систем не применяется в действительно серьезных масштабах семантическая информация (хотя обо всех системах утверждается, что в какой-то мере они такую информацию учитывают). Большинство (если не все) из этих систем действуют по принципу „ученого идиота": перерабатывают, пользуясь методом „грубой силы", огромные объемы очень примитивной информации, имеющей сугубо прагматический характер, определяют посредством такой обработки пословные или пооборотные переводные эквиваленты для единиц исходного текста и, производя соответствующие эквивалентные замены, сопровождают их локальными изменениями в порядке слов; перевод, даже если его можно понять, получается в результате совершенно хаотичным.
Но ведь эти системы работают! Во всяком случае, работают некоторые из них, и притом достаточно хорошо, чтобы их пользователи считали целесообразным идти на те огромные затраты времени и капитала, которых требует разработка крупных специализированных словарей, ориентированных на соответствующие задачи. Скорость перевода, безусловно, возрастает. Трудности, испытываемые переводчиками, в каких-то случаях увеличиваются, в каких- то — уменьшаются (похоже, что, помимо всех прочих факторов, здесь имеют существенное значение личные особенности переводчика). Часть переводчиков противится внедрению систем МП и ЧМП, но ведь кое-кто до сих пор противится — с большим или меньшим успехом — и использованию пишущих машинок, не говоря уже о средствах экранного редактирования. Большинство, однако, склонно согласиться с тем, что компьютерам есть место в процессе перевода; а некоторые даже лелеют надежды на избавление за этот счет от значительной части выполняемых ими сейчас рутинных операций. К современным системам МП нужно, по-видимому, некоторое время привыкать, и по мере этого привыкания производительность труда постепенно растет; обычно дело кончается тем, что уставший от однообразной и скучной работы переводчик начинает воспринимать такие системы как благо. В настоящее время на рынок поступают все новые системы, реализованные в рамках той же устаревшей технологии; большинство из них оказываются нежизнеспособными и быстро исчезают из обращения. Однако те системы, которые сохраняют свой коммерческий статус годами, надо полагать, приносят своим пользователям экономическую выгоду, иначе, вероятно, они бы уже не существовали.
Системы, находящиеся в процессе разработки
Системы, разрабатываемые сейчас в расчете на внедрение в ближайшее время, опираются на достижения компьютерной лингвистики (КЛ) конца 70-х, а то и начала 80-х годов. По существу, все они ориентированы на полностью автоматизированный МП, а не на ЧМП. Как отмечается в работе Hutchins, 1982, «...в настоящее время в значительной степени общепризнанным является тот подход к принципиальной стратегии МП, согласно которому перевод должен осуществляться в системе через посредство межъязыковых операций с использованием для упрощения ее межъязыкового компонента определенных процедур семантического анализа, а также определенных элементов языка-посредника». Во всех системах, о которых идет речь, применяются те или иные из новейших методов анализа/преобразования, как правило, основанные на использовании граф-схем, независимо от того, задаются ли грамматические сведения о языке с помощью правил грамматики непосредственно составляющих — как, например, в системе METAL — или в терминах деревьев (цепочек деревьев) — как в системе GETA или EUROTRA. Обработка текста ведется на уровне предложений или на еще более высоких уровнях с широким привлечением семантических характеристик. Идеи простой пословной замены исходных единиц выходными, как и „лобовые" методы программирования, уступили место соответственно более или менее изящным лингвистическим теориям и эвристическим принципам разработки программного обеспечения. Если в процессе анализа исходного текста удается получить представление требуемого вида, можно с достаточной степенью уверенности ожидать, что перевод окажется приемлемым для постредактора; на случай же, если такого представления получить не удастся, предусматриваются специальные средства повышения устойчивости работы системы при отказах, позволяющие получать результаты, сходные с теми, которые обеспечиваются ныне действующими промышленными системами МП.
Системы рассматриваемого типа работают в экспериментальном режиме достаточно хорошо, чтобы и те, кто их финансирует, и те, кто рассчитывает в дальнейшем стать их пользователями,— не говоря уже о самих разработчиках — имели все основания надеяться на их успешное практическое применение уже в самом ближайшем будущем. Технология этих систем воплощает в себе те из новейших методологических инструментов и принципов, которые представляются пригодными для непосредственного практического применения в широких масштабах. Большинство подходов, разрабатываемых в рамках „чистого ИИ", не подпадают под эту категорию; поэтому серьезные исследователи, занимающиеся проблемами ИИ, смотрят на разрабатываемые в настоящее время системы МП (не говоря уже об имеющихся промышленных системах) сверху вниз, считая их устаревшими, неинтересными, а возможно, и бесполезными. В отношении каких-то из них это, должно быть, справедливо. Однако другие системы, сколь бы „устаревшими" они ни были, вскоре найдут себе место при решении практических задач и начнут вытеснять те из современных промышленных систем МП, которые будут составлять им конкуренцию. (Поскольку все системы МП, подготавливаемые сейчас к промышленной реализации, ориентированы, по-видимому, на задачи „распространения информации", ныне действующие промышленные системы, спрос на которые связан с задачами „сбора информации", могут, вероятно, сохранить свои позиции в течение еще некоторого времени.) Все упирается в основном в проблему времени: время нужно как на составление и отладку грамматик (это работа очень нелегкая), так и на подготовку словарей, которые в части общей лексики должны включать порядка десяти тысяч единиц, а в части терминологии — по нескольку десятков тысяч терминов на каждую предметную область. В рамках одних из разрабатываемых проектов требуемое время уже затрачено, и созданные системы (например, система GETA) полностью подготовлены к использованию в коммерческих целях; другие системы данного класса (например, система METAL, получившая торговое название L1TRAS) вышли на этот уровень лишь в самое последнее время.
Основная беда исследовательских систем МП заключается в их малочисленности (в США они просто отсутствуют). С подобной ситуацией, может быть, и можно было бы мириться, если бы вопросами иностранных языков всерьез интересовались — пусть даже безотносительно к переводу как таковому — те из современных исследователей, которые работают в области КЛ и ИИ. Однако в США эти вопросы занимают очень немногих, а в Европе исследования по проблемам КЛ и ИИ еще не достигли такого уровня, как в США. Деловые и промышленные круги в странах Запада больше интересуются тем, что обещает отдачу в кратчайшие сроки; некоторые фирмы проявляют внимание к промышленно ориентированным системам, находящимся в процессе разработки, но непосредственную финансовую поддержку разработкам в области МП оказывают очень немногие из них, а чисто исследовательские работы по этой проблематике не финансирует в сколько-нибудь существенных масштабах практически ни одна из торговых или промышленных организаций. (Собственно говоря, на Западе есть, по-видимому, только одна фирма, ведущая долгосрочные исследования по МП,— голландская компания „Phillips".) Крупные проекты исследований и разработок по МП финансируются правительствами ряда европейских стран (в частности, ФРГ и Франции), однако по объему своих капиталовложений в данную исследовательскую область все страны мира далеко уступают Японии. Правительство США, которое по другим направлениям ИИ и КЛ (в части английского языка) финансирует лучшие в мире фундаментальные разработки, в исследованиях по МП не принимает никакого участия.
Что касается тех (все же существующих) групп, которые ведут чисто научные исследования в области МП, то большинство из них склонны концентрировать свои усилия на проблемах глубинного представления значения, ставя своей целью построение системы ИИ в подлинном смысле этого слова — системы, которая должна, как предполагается, предусматривать представления значений, независимые от конкретных естественных языков и отличающиеся большой глубиной и сложностью. Перевод выступает при этом всего лишь как одно из возможных направлений применения такой системы: работа ее заключается в том, что она вначале „понимает" входной текст на естественном языке, а затем „порождает" выходной текст, также на естественном языке; если эти языки различны, то тем самым обеспечивается перевод, получаемый посредством перефразирования. Перевод можно рассматривать, таким образом, как один из решающих критериев адекватности функционирования систем ИИ: если система „переводит правильно", то это может в какой-то степени служить аргументом в пользу того, что она „правильно поняла" переводимый текст; во всяком случае, может многое сообщить нам о том, о чем идет речь в переводе. В этой своей функции исследования в области МП являются особенно многообещающими и имеют хорошие перспективы вновь войти в число престижных научных направлений. Для этого, однако, прежде всего требуется, чтобы существовали такие исследовательские коллективы, которые интересовались бы изучением различных языков и проблемами перевода с одних из них на другие под углом зрения ИИ и которым были бы предоставлены необходимые для соответствующих исследований ассигнования. В настоящее время наличием подобных коллективов может похвастаться только Япония и в несколько меньшей степени Западная Европа.
ДАЛЬНЕЙШИЕ ПЕРСПЕКТИВЫ
За два десятилетия, прошедшие со времени доклада комитета ALPAC, в мире произошли большие перемены. Потребности в техническом переводе и спрос на него резко выросли, существенно опередив при этом темпы роста контингента квалифицированных технических переводчиков. (Впрочем, еще вопрос, хватало ли квалифицированных технических переводчиков в 1966 г., что бы ни утверждалось об этом в докладе ALPAC.) Классический „закон соответствия спроса и предложения" в данном случае по каким-то причинам пока не сработал: нехватка переводчиков — это реальный факт, наблюдаемый повсеместно во всем мире; предотвратить дальнейшее усугубление сложившейся ситуации пока еще никакими средствами не удается; и похоже, что никакие средства, кроме резкого повышения производительности переводческого труда за счет его автоматизации с помощью ЭВМ, не способны это обеспечить. В ЕЭС, например, ожидается, что потребности в техническом переводе, которые уже сейчас подавляют своими масштабами, в течение ближайшего пятилетия должны вырасти в шесть раз.
В будущем можно надеяться, что переводчики станут более широко использовать — при техническом переводе — весь арсенал предоставляемых в их распоряжение вспомогательных машинных средств: от систем экранного редактирования и терминологических банков, работающих в режиме „он-лайн", до систем МП. Соответственно системы (Ч)МП будут пользоваться большим успехом на рынке. По мере того как эти системы будут сбивать цены на перевод, спрос на него и производственные возможности в этой области будут расти в еще больших размерах, чем они росли бы в ином случае; обнаружат свое существование многие „новые" сферы, где ощущается потребность в переводе, но где в настоящее время он себя экономически не оправдывает. И поскольку системы МП придется вновь совершенствовать, с тем чтобы еще больше облегчить то бремя, которое ложится на переводчика-человека, постольку возрастет и нужда в дальнейших исследованиях и разработках в данной области.