Компания Meta* разработала и выложила в открытый доступ единую систему перевода текстов, работающую с 204 языками. Она переводит с одного языка на другой напрямую, не используя английский или другие промежуточные языки. Статья об алгоритме опубликована на сайте Meta AI, а сама модель — на GitHub.
Многие системы машинного перевода используют отдельные модели для языковых пар, например, для перевода с русского на английский. А также английский часто применяют как язык-посредник между парой языков, поскольку на нем есть больше всего текстов, особенно в интернете. Из-за этого, с одной стороны, для обучения моделей-переводчиков доступно больше данных, но с другой — неизбежно увеличивается количество неточностей и ошибок перевода.
Но есть и многоязычные и не использующие промежуточный язык модели, которые способны работать сразу с несколькими, а то и с десятком языков. В 2020 году такую систему под названием M2M представили разработчики из Facebook AI (теперь — Meta AI), тогда она поддерживала 100 языков. В начале 2022 года компания анонсировала проект No Language Left Behind (NLLB), в рамках которого она собирается создать универсальную модель машинного перевода, поддерживающую сотни языков и адаптированную для обучения малоресурсным языкам.
Теперь исследователи и разработчики из Meta AI вместе с коллегами из Калифорнийского университета в Беркли и Университета Джонса Хопкинса представили многоязычную модель NLLB-200, поддерживающую прямой перевод между 204 языками, а также датасет FLORES-200 с таким же количеством языков.
Как и многие большие языковые модели, NLLB-200 обучалась на огромном массиве данных, собранным из интернета. Но для начала разработчики собрали датасет NLLB-Seed, в который включили предложения из важнейших страниц Википедии, переведенные с английского на 39 малоресурсных языков профессиональными переводчиками. Всего в датасет вошло около шести тысяч предложений. Этот набор данных, а также уже существующие датасеты для других языков, позволил начать обучение модели.
Затем для сбора большого датасета для малоресурсных языков авторы использовали систему сбора параллельных корпусов LASER (Language-Agnostic SEntence Representations). Она берет исходное предложение на любом поддерживаемом языке и размещает его на общее векторное пространство так, что одинаковые по смыслу предложения на разных языках в нем будут располагаться очень близко, а разные — далеко:
Первая версия LASER была представлена в 2019 году, а в новой работе использовалась LASER3, в которой сделано несколько улучшений. В том числе, в ней выделили кодировщики для групп языков, а также заменили архитектуру с LSTM на Transformer.
Собрав обширные датасеты для языков, разработчики обучили единую модель NLLB-200. Чтобы оценить ее работу, они собрали еще один датасет — FLORES-200. Принцип его сбора был похож на NLLB-Seed, но он содержит три тысячи предложений на всех 204 языках, так что для оценки перевода доступно более 40 тысяч языковых пар. Проверка на этом датасете, а также на его предыдущей версии, поддерживающей 101 язык, показала, что NLLB-200 опережает предыдущий лучший многоязыковой алгоритм машинного перевода на 44 процента по метрике BLEU, которая показывает, насколько машинный перевод близок к человеческому.
Помимо статьи Meta опубликовала саму модель NLLB-200 и собранные датасеты, они доступны на GitHub.
Некоторые исследователи идут дальше в избавлении от промежуточных шагов, таких как перевод на английский. В 2019 году разработчики из Google создали систему прямого перевода устной речи: она работает со звуковыми файлами и вообще не использует текстовое представление слов.
*Деятельность компании в России запрещена.
Телефон с приложением крепится на пылесос и отмечает уже обработанные участки пола
Компания Dyson представила систему CleanTrace, которая позволяет игрофицировать процесс уборки пылесосом с помощью технологии дополненной реальности. Система состоит из приложения для смартфонов серии iPhone Pro с лидаром, и крепления для смартфона на пылесос модели Dyson Gen5Detect. Приложение определяет, что является полом, а что — нет, и при движении пылесоса позади его насадки дорисовывает в дополненной реальности заливку фиолетового цвета. Цель состоит в том, чтобы полностью «покрасить» пол в этот цвет. После завершения уборки, можно снять смартфон с крепления и просканировать комнату, чтобы убедиться, что не осталось необработанных участков.