Лингвисты из Мюнхенского университета имени Людвига-Максимилиана опубликовали параллельный корпус переводов Нового Завета на 1169 языков. По мнению авторов, этот корпус позволит сократить объем текстов, необходимый для обучения систем машинного перевода. Поскольку Новый завет переведен на самые разные языки мира, включая множество исчезающих, предполагается, что таким образом исчезающие языки можно будет сохранить для дальнейшего изучения. Статья опубликована на сайте Cornell University Library.
Всего в мире существует около семи тысяч живых языков. Однако более половины населения планеты используют для общения лишь несколько из них — китайский, английский, хинди, испанский и русский, а 95 процентов людей во всем мире говорят всего на 100 языках. Остальные языки востребованы гораздо меньше.
По последним подсчетам, примерно на каждом из трети ныне живых языков говорят менее 1000 человек. Этим языкам грозит исчезновение в ближайшие сто лет. Когда они перестанут существовать, с ними уйдет уникальное культурное наследие: шутки, идиомы, уникальные абстрактные понятия.
Лингвисты предполагают, что системы машинного перевода позволят сохранить эти языки в наиболее полном виде. Проблема заключается в том, что машине для обучения языку необходимы значительные объемы аннотированных текстов на этом языке. Такие тексты работают как розетские камни для алгоритмов машинного обучения, и чем больше данных, тем лучше учится программа. Но достаточные по размеру размеченные корпуса существуют только для малой части языков мира. Так, самый крупный веб-сервис, предназначенный для перевода текста, — Google Translate — работает всего с 90 языками. Поэтому важной задачей современных лингвистов является найти способ обучения систем машинного перевода текстов на недостаточно подробно описанных языках.
Эхсанеддин Асгари (Ehsaneddin Asgari) и Хенрих Шютце (Hinrich Schutze) из Мюнхенского университета имени Людвига-Максимилиана разработали способ автоматического анализа языков с маленьким аннотированным корпусом. Для его реализации они создали параллельный корпус из 1196 переводов самого распространенного в мире текста — Нового Завета. Хотя текст такого размера недостаточно объемный для известных методик обучения автоматических переводчиков, у него есть важное преимущество: будучи текстом религиозного содержания, он достаточно точно переведен почти на все языки мира. Зная, что практически ни один перевод новозаветного текста не освещает все особенности того или иного языка, Асгари и Шютце предположили, что каждый перевод все равно дает возможность реализовать основные грамматические категории своего языка, и предложили новый подход к обучению, основанный на сопоставлении маркеров лингвистических функций в разных языках мира.
Метод заключается в том, что лингвист должен вручную выделить и разметить в тексте нескольких переводов интересующие языковые маркеры и связанные с ними слова, а потом с помощью автоматического анализа порядка слов программа составляет кластеры наиболее близких соответствий в текстах остального корпуса. Правда, авторы признают, что существует много словоформ, которые пока невозможно найти с помощью этого метода, и планируют его дорабатывать.
Авторы уже опробовали свою методику, выделив маркеры прошлого, настоящего и будущего времени в ста случайно отобранных переводах из нового корпуса.
Этот метод пока требует проверки вручную, но уже сейчас получившаяся карта показывает, какие из языков используют аналогичные грамматические инструменты для образования времен. Помимо подготовки материала для обучения систем машинного перевода, эта техника может быть использована для лучшего понимания происхождения и истории контактов языков.
Проблему исчезновения малых языков лингвисты пытаются решить и другими путями. Так, недавно австрийские лингвисты разработали технологию микромоделирования процесса языковой ассимиляции, которая, как они считают, позволит спасти от исчезновения многие современные языки.
О том, как разработчики группы машинного перевода «Яндекса» решают проблему перевода на малоописанные языки, читайте в большом материале Антона Дворковича.
Елизавета Власова