На пути к «универсальному переводчику»

Исследования и прогнозы в IT
На пути к универсальному переводчикуПереводчик – предатель, гласит итальянская поговорка. И неспроста. Перевести текст и сохранив смысл, и стиль, и достаточно близко к первоисточнику – задача ой какая непростая. Перевод зачастую «пробрасывает мостик» между двумя культурами, отличными как разные миры, и ему приходится выступать в роли посредника при таком контакте. Как перевести слова, значения которых нет в другом языке, рифмы, которые невозможны для чужого уха?

И это мы говорим только о переводчиках – людях, которые через долгое обучение и практику смогли вникнуть во все тонкости другого языка, другого типа мышления. Говорят же что для того чтобы хорошо переводить, нужно уметь думать на обоих языках, которые участвуют в процессе перевода. И естественно, такая востребованная и незаменимая (особенно в наш век международного сотрудничества) профессия тоже подверглась компьютеризации.

Эксперименты с машинным переводом начались практически с самого появления универсальных вычислительных машин. Первые универсальные компьютеры – Colossus и ENIAC появились во время Второй Мировой войны, а идея использования машин для перевода появилась еще раньше – еще в XVII веке. Лейбниц и Декарт высказывали предположения, что могут быть созданы коды, которые смогут переносить смысл слов между языками. Однако все их предположения остались чисто теоретическими, так как никаких возможностей для проверки их теорий в то время еще не существовало. Первые патенты на «машины для переводов» начали выдаваться в середине 1930-х, один из них, выданный Петру Троянскому (кстати, наш соотечественник), предполагал перевод как процесс, состоящий из 3-х этапов – на первом редактор, знакомый с исходным языком подготавливал текст к переводу, чтобы облегчить задачу машине, на втором собственно происходил перевод, на третьем редактор, знакомый с целевым языком обрабатывал текст, приводя его в удобочитаемый для человека вид. На самом деле такая схема не очень-то и отличается от того как процесс идет, например, в агентствах перевода и сейчас, только редактор обычно один и знаком с обеими языками. Это кое-что говорит об уровне развития технологии, когда предсказания, сделанные 80 лет назад все еще применимы к ситуации, несмотря на радикально изменившиеся средства. А в начале задача казалась такой простой… но не будем забегать вперед.

Первый практический опыт в области машинного перевода – Джорджтаунский эксперимент – закончился полным успехом. Этот эксперимент был проведен в 1954 году в Джорджтаунском университете при поддержке IBM, и в его ходе компьютер в первый раз в истории самостоятельно переводил c одного языка на другой – в том случае, с русского на английский. Впрочем, электронному переводчику значительно упростили задачу – исходные фразы вводились в компьютер не на «чистом» русском, а в транслитерации, а тема и словарный запас были зафиксированы заранее – органическая химия. И все же, это был успех. Демонстрация была широко освещена в СМИ, она подавалась как большой успех, и предвестник еще больших успехов, что убедило многие страны (в частности, США), вложить значительные средства в разработки, посвященные вычислительной лингвистике. Некоторые делали прогнозы, согласно которым до появления полностью автоматизированного переводчика оставалось 3-5 лет. Приблизительно такие же, хотя и с большим горизонтом, прогнозы делались относительно ИИ. Многие фантасты предсказывали появление ИИ уже в конце ХХ столетия.

Однако, проблема машинного перевода (как и ИИ, кстати говоря, они довольно тесно взаимосвязаны и можно с достаточной уверенностью говорить, что серьезный прорыв в одной области с большой вероятностью также вызовет прогресс и в другой) оказалась твердым орешком и не сдалась ни через год, ни через три, ни через пять. И тогда, через десять лет, был собран комитет ALPAC, целью которого была оценка прогресса, сделанного в машинном переводе со времен эксперимента. Когда он был опубликован, в 1966 году, это нанесло большой удар по позициям вычислительной лингвистики, и еще больший – по бюджетам ученых, работающих в этой области. Комитет отзывался о ближайших перспективах машинного перевода весьма скептически, утверждая что необходимы годы исследований в вычислительной лингвистике, чтобы получить хоть какие-то результаты. Вывод был не слишком оптимистичным – в обозримом будущем машинный перевод останется более затратным, по деньгам и времени, чем перевод, выполняемый профессиональными переводчиками – людьми. Впрочем, отчет содержал положительный рекомендации, которые касались использования вспомогательных инструментов – например, компьютеризированных словарей. Но основной прогноз был неутешителен, и это перекрыло исследованиям в области машинного перевода финансирование почти на 10 лет. Исследования продолжались в Европе, но тоже надолго затормозились.

Пока машинные переводы рассматривались как еще один инструмент развития международных отношений, спрос на них формировали государства, но государство может позволить себе нанять столько переводчиков сколько нужно, ему не нужно беспокоиться о рентабельности или эффективности процесса. Поэтому как только выяснилось, что технология не может дать немедленного эффекта, интерес со стороны государства к ней ослаб. Зато появился интерес со стороны бизнеса, для которого экономия средств и увеличение эффективности работы были не пустым звуком. Мир становился все более глобализированным, и объемы переводов все время увеличивались. Рынок был, но не было эффективной технологии. Она появится позже…

Брошенное знамя подхватили коммерческие компании. Исследованиями в области переводов занимались такие компании как IBM, AltaVista (ее проект Babel Fish был впоследствии перекуплен yahoo), многие японские компании. В 80-х годах, когда в Японии была популярна концепция компьютера 5-го поколения, многие компании связывали с такими компьютерами надежды на успех. Правда, такие вычислительные машины так и не увидели свет – хотя идеи, заложенные тогда получили развитие уже сейчас (параллельное выполнение множества задач на множестве процессоров и программирование ориентированное на выполнение таких задач).

В дальнейшем, приблизительно до конца 90-х годов ХХ века развитие шло достаточно медленно, но стабильно. Проблемой занималось множество исследовательских учреждений в разных странах. Как правило, каждый проект специализировался на конкретной паре языков, например – Logos (английский-французский и английский-немецкий), Metal (немецкий-английский), многие японские компании разрабатывали внутренние проекты переводчиков с/на японского. Основной стратегией вплоть до конца 80-х годов были попытки создания «промежуточной среды», которая будет располагать расширенными возможностями для лингвистического и синтаксического анализа. Иногда эта среда представлялась как база знаний, иногда как «интерлингва» – язык над языками, включающий в себя все возможные семантические значения.

Как сделать сказку былью


Еще в 1960-е годы, на заре исследований в этой области было сформулировано несколько концепций машинного перевода, каждая из которых основанная на своем специфическом наборе правил и инструментов. Так, первой была воплощена концепция перевода, основанного на правилах (rule-based machine translation), позже ее дополнила концепция перевода, ориентированного на образцы (example-based) а в 90-х годах ХХ века возникла другая теория — статистического перевода. Каждая из них заняла свою нишу, хотя практически ни одна реализованная система перевода не использует только одну концепцию в чистом виде – почти всегда они взаимно дополняют друг друга. Например, профессиональное ПО для переводчиков Trados использует память переводов (example-based), которую дополняют правила (rule-based), а Google Translate основан на статистических алгоритмах, но также применяет к ним правила чтобы корректировать получаемый результат.

Первый метод – rule-based – привязывал машину к жесткому набору правил. Алгоритм получался относительно простым и не требовал много ресурсов, но результат был далек от совершенства. Впрочем, в 60-х даже такой результат был прорывом, но дальше «полупереваренных» текстов, которые невозможно было разобрать без серьезной редакторской обработки, дело не пошло. Результат был больше proof-of-concept нежели практически полезным инструментом. Rule-based алгоритмы продолжали применяться, но в комбинации с другими методами, что позволяло решать более сложные задачи.
Example-based переводчик работает с базой переведенных выражений, которая в ходе работы с целевыми текстами создается переводчиками. ПО, которое основано на example-based технологиях как правило используется профессионалами, которые работают, например, с переводами технической документации, изобилующих специфической терминологией. Такие тексты как правило небогаты на стилистические изыски, что позволяет переводить большую часть фраз, которые не относятся к терминологии по заложенному набору правил. Качество получившегося перевода напрямую зависит от качества базы образцов, которая накапливается и расширяется при использовании системы и составлении новых переводов. Но такой подход плохо работает с переводом широко распространенных фраз и выражений – дело в том что в обиходном языке у одного слова может быть с десяток разных значений, который задействуются в зависимости от контекста.

В таких случаях помогает статистический метод. Он впервые получил широкое распространение в 90-х годах. Этот метод опирается на анализ статистических моделей перевода, которые создаются при анализе двуязычных корпусов текста. Особенность статистических моделей в том что они способны к самообучению и качество их переводов тем лучше, чем больше объемы информации которые проходят через переводчик. Потому Google Translate добивается хороших результатов именно благодаря тому, что он бесплатен и доступен из интернета всем желающим. Ранее для эффективного применения этого метода не хватало вычислительных мощностей, да и объемов информации – такую систему сложно да и невыгодно запускать локально, хотя такие решения существуют для специфических применений. Основной слабостью статистического метода является необходимость большой статистической базы переводов для адекватной работы механизма – если вы занимаетесь переводом текста в какой-то специфической области, такой базы может не быть.

Compreno – значит «понимаю»


Пока что нас вполне устраивает качество, которое предоставляет Google Translate, но надолго ли? Переводчики хорошо знают, что использовать его в работе нельзя так как он дает в лучшем случае первое приближение того, о чем написан текст, а в худшем может вообще запутать переводчика. Это происходит потому что алгоритмы только определяют те варианты перевода, которые были бы наиболее вероятны в данном контексте, и только. Алгоритм не распознает значение текста и не может понять, что перевод ему не соответствует – только обнаружить статистические зависимости, которые относятся к данному сочетанию слов.

Ранее учеными разных стран уже делались попытки написания «универсального языка значений», в котором содержались бы семантические эквиваленты выражений на любом другом языке. Такой «универсальный эсперанто» выступал бы посредником в переводе, особенно между языками, которые очень разнятся по семантике, например – английским и японским. Дополнительно такой язык смог бы снять проблему многозначности и синонимов/омонимов в переводе, так как система перевода, образно выражаясь, считывала бы из исходного текста его «понятийный смысл», который бы и выражался в этом «надязыке», и уже с него бы переводила результат в другой язык. Если смысл считан верно, то выразить его средствами другого языка уже сравнительно простая задача.

Задачу создания такого «универсального языка» уже вот 17 лет как решает российская компания ABBY, больше известная словарями Lingvo и ПО распознавания текста FineReader (и то и другое, кстати говоря – продукты международного уровня, на равных конкурирующие с зарубежными разработками, а FineReader так и вовсе является лидером рынка OCR), и добилась в этом успеха. Интересно, что по своей сути проект симулирует возвращение на многие тысячи лет назад, когда, согласно гипотезам лингвистов, у человечества был единый язык. Однако создать с нуля иерархию универсальных для всех понятий — задача нетривиальная как с точки зрения создания базовой технологии, так и в плане непосредственного воплощения.

Compreno существует уже сейчас в стадии рабочего прототипа. Как оказалось эти же наработки можно применить в разных смежных и не очень околокомпьютерных сферах, например для создания очень эффективного поисковика, который бы мог воспринимать сформулированный на натуральном языке поисковый запрос. Идея простая: с каждым годом задача, связанная с обработкой данных, только усложняется. Информация множится, при этом 80-90% от всего ее мирового объема остаются неструктурированными и поиск в этой среде сильно осложнен тем, что информация как правило структурирована так чтобы быть понятной для человека, а не компьютера. Здесь-то и может помочь Compreno, потому что на глубоком уровне, этот механизм воспринимает информацию как человек – переводя ее с языка, на котором мы сообщаемся, на язык, на котором мы думаем (мысли весьма сложно вербализуются). Такой механизм может быть весьма востребован, скажем, коммерческими организациями – для поиска по оцифрованным, но плохо структурированным архивам.

Второй вариант использования системы заключается в анализе текстовой информации (то есть все том же поиске, но более развернутом), который требуется при мониторинге, конкурентной разведке, оценке тональности текста и других подобных задачах. Важно найти все релевантные данные, без мусора и ошибок в определении фактов и объектов. Использование полного семантического и синтаксического анализа текста очень помогает в достижении этой цели.

Пока что трудно сказать, когда Compreno доберется до массового рынка, если доберется вообще, а не останется в распоряжении коммерческих компаний, которые смогут заплатить за его реализацию и использование, но его создание – большой шаг вперед. Исследователи ABBY полагают, что разработанный их силами «универсальный язык понятий» может использоваться во многих других областях вычислительной науки – например, в распознавании речи, или, как знать, в исследованиях ИИ.

Быть может мы и увидим «универсальные переводчики» с любого на любой язык еще при нашей жизни. Как в Star Trek :)

Комментарии (0)


Добавление комментариев доступно только зарегистрированным пользователям. Используйте свою существующую учетную запись для авторизации. Если у Вас еще нет учетной записи на сайте ее можно создать пройдя несложную процедуру регистрации. Кстати, для входа на сайт, наравне с учетной записью на cloudzone.ru, можно использовать аккаунт из следующих популярных сервисов: Яндекс, Facebook, Google и LinkedIn