Компания Meta* разработала и выложила в открытый доступ единую систему перевода текстов, работающую с 204 языками. Она переводит с одного языка на другой напрямую, не используя английский или другие промежуточные языки. Статья об алгоритме опубликована на сайте Meta AI, а сама модель — на GitHub.
Многие системы машинного перевода используют отдельные модели для языковых пар, например, для перевода с русского на английский. А также английский часто применяют как язык-посредник между парой языков, поскольку на нем есть больше всего текстов, особенно в интернете. Из-за этого, с одной стороны, для обучения моделей-переводчиков доступно больше данных, но с другой — неизбежно увеличивается количество неточностей и ошибок перевода.
Но есть и многоязычные и не использующие промежуточный язык модели, которые способны работать сразу с несколькими, а то и с десятком языков. В 2020 году такую систему под названием M2M представили разработчики из Facebook AI (теперь — Meta AI), тогда она поддерживала 100 языков. В начале 2022 года компания анонсировала проект No Language Left Behind (NLLB), в рамках которого она собирается создать универсальную модель машинного перевода, поддерживающую сотни языков и адаптированную для обучения малоресурсным языкам.
Теперь исследователи и разработчики из Meta AI вместе с коллегами из Калифорнийского университета в Беркли и Университета Джонса Хопкинса представили многоязычную модель NLLB-200, поддерживающую прямой перевод между 204 языками, а также датасет FLORES-200 с таким же количеством языков.
Как и многие большие языковые модели, NLLB-200 обучалась на огромном массиве данных, собранным из интернета. Но для начала разработчики собрали датасет NLLB-Seed, в который включили предложения из важнейших страниц Википедии, переведенные с английского на 39 малоресурсных языков профессиональными переводчиками. Всего в датасет вошло около шести тысяч предложений. Этот набор данных, а также уже существующие датасеты для других языков, позволил начать обучение модели.
Затем для сбора большого датасета для малоресурсных языков авторы использовали систему сбора параллельных корпусов LASER (Language-Agnostic SEntence Representations). Она берет исходное предложение на любом поддерживаемом языке и размещает его на общее векторное пространство так, что одинаковые по смыслу предложения на разных языках в нем будут располагаться очень близко, а разные — далеко:
Первая версия LASER была представлена в 2019 году, а в новой работе использовалась LASER3, в которой сделано несколько улучшений. В том числе, в ней выделили кодировщики для групп языков, а также заменили архитектуру с LSTM на Transformer.
Собрав обширные датасеты для языков, разработчики обучили единую модель NLLB-200. Чтобы оценить ее работу, они собрали еще один датасет — FLORES-200. Принцип его сбора был похож на NLLB-Seed, но он содержит три тысячи предложений на всех 204 языках, так что для оценки перевода доступно более 40 тысяч языковых пар. Проверка на этом датасете, а также на его предыдущей версии, поддерживающей 101 язык, показала, что NLLB-200 опережает предыдущий лучший многоязыковой алгоритм машинного перевода на 44 процента по метрике BLEU, которая показывает, насколько машинный перевод близок к человеческому.
Помимо статьи Meta опубликовала саму модель NLLB-200 и собранные датасеты, они доступны на GitHub.
Некоторые исследователи идут дальше в избавлении от промежуточных шагов, таких как перевод на английский. В 2019 году разработчики из Google создали систему прямого перевода устной речи: она работает со звуковыми файлами и вообще не использует текстовое представление слов.
*Деятельность компании в России запрещена.