Компания Meta* разработала и выложила в открытый доступ единую систему перевода текстов, работающую с 204 языками. Она переводит с одного языка на другой напрямую, не используя английский или другие промежуточные языки. Статья об алгоритме опубликована на сайте Meta AI, а сама модель — на GitHub.
Многие системы машинного перевода используют отдельные модели для языковых пар, например, для перевода с русского на английский. А также английский часто применяют как язык-посредник между парой языков, поскольку на нем есть больше всего текстов, особенно в интернете. Из-за этого, с одной стороны, для обучения моделей-переводчиков доступно больше данных, но с другой — неизбежно увеличивается количество неточностей и ошибок перевода.
Но есть и многоязычные и не использующие промежуточный язык модели, которые способны работать сразу с несколькими, а то и с десятком языков. В 2020 году такую систему под названием M2M представили разработчики из Facebook AI (теперь — Meta AI), тогда она поддерживала 100 языков. В начале 2022 года компания анонсировала проект No Language Left Behind (NLLB), в рамках которого она собирается создать универсальную модель машинного перевода, поддерживающую сотни языков и адаптированную для обучения малоресурсным языкам.
Теперь исследователи и разработчики из Meta AI вместе с коллегами из Калифорнийского университета в Беркли и Университета Джонса Хопкинса представили многоязычную модель NLLB-200, поддерживающую прямой перевод между 204 языками, а также датасет FLORES-200 с таким же количеством языков.
Как и многие большие языковые модели, NLLB-200 обучалась на огромном массиве данных, собранным из интернета. Но для начала разработчики собрали датасет NLLB-Seed, в который включили предложения из важнейших страниц Википедии, переведенные с английского на 39 малоресурсных языков профессиональными переводчиками. Всего в датасет вошло около шести тысяч предложений. Этот набор данных, а также уже существующие датасеты для других языков, позволил начать обучение модели.
Затем для сбора большого датасета для малоресурсных языков авторы использовали систему сбора параллельных корпусов LASER (Language-Agnostic SEntence Representations). Она берет исходное предложение на любом поддерживаемом языке и размещает его на общее векторное пространство так, что одинаковые по смыслу предложения на разных языках в нем будут располагаться очень близко, а разные — далеко:
Первая версия LASER была представлена в 2019 году, а в новой работе использовалась LASER3, в которой сделано несколько улучшений. В том числе, в ней выделили кодировщики для групп языков, а также заменили архитектуру с LSTM на Transformer.
Собрав обширные датасеты для языков, разработчики обучили единую модель NLLB-200. Чтобы оценить ее работу, они собрали еще один датасет — FLORES-200. Принцип его сбора был похож на NLLB-Seed, но он содержит три тысячи предложений на всех 204 языках, так что для оценки перевода доступно более 40 тысяч языковых пар. Проверка на этом датасете, а также на его предыдущей версии, поддерживающей 101 язык, показала, что NLLB-200 опережает предыдущий лучший многоязыковой алгоритм машинного перевода на 44 процента по метрике BLEU, которая показывает, насколько машинный перевод близок к человеческому.
Помимо статьи Meta опубликовала саму модель NLLB-200 и собранные датасеты, они доступны на GitHub.
Некоторые исследователи идут дальше в избавлении от промежуточных шагов, таких как перевод на английский. В 2019 году разработчики из Google создали систему прямого перевода устной речи: она работает со звуковыми файлами и вообще не использует текстовое представление слов.
*Деятельность компании в России запрещена.
Теперь она может определять киберугрозы
Исследователи из Южной Кореи обучили языковую модель DarkBERT на текстах из даркнета. Люди общаются в даркнете иначе, чем в обычном интернете, в том числе используют свой сленг. Модель изучила этот язык, и теперь ее можно применять в задачах кибербезопасности. Препринт доступен на arXiv.org. Языковые модели сегодня применяют для изучения разных текстов. Это нейросети, которые обучились на большом количестве данных и хорошо выполняют задачи, связанные с пониманием речи. Популярные языковые модели основаны на архитектуре Transformer, которую придумали инженеры из Google — такие модели умеют фокусировать внимание на важных частях предложения. Языковые модели лучше всего понимают то, что похоже на примеры из обучающей выборки. Обычно они учатся на больших объемах текстов из интернета, поэтому понимают много чего: литературный язык, сообщения из социальных сетей, научно-популярные статьи. Но есть тексты, которые не попадают в обучающую выборку, в том числе тексты из даркнета. У них есть свои лингвистические особенности: словарный запас, распределение частей речи и даже синтаксис. Обычные языковые модели это не учитывают, потому что во время обучения не видели таких текстов. Выход есть — обучить языковую модель на материалах из даркнета. Даркнет — это часть интернета, которую не найти в обычных поисковиках вроде Яндекса или Гугла. Туда нельзя попасть через обычный браузер. Есть разные сервисы для входа в даркнет, авторы исследования использовали Tor. Люди в даркнете общаются анонимно, и их сложно отследить. Поэтому даркнет стал платформой для всякого незаконного, от утечек данных до торговли запрещенными веществами. Специалисты по кибербезопасности постоянно ищут способы мониторить и изучать тексты в даркнете. Группа ученых из Южной Кореи под руководством Сун Вон Шина (Seungwon Shin) из Корейского института передовых технологий собрала корпус текстов из даркнета и обучила на нем языковую модель DarkBERT. Сначала авторы составили списки сайтов с помощью инструмента поиска по даркнету. Затем они скачали 6 миллионов веб-страниц и превратили их в тексты. Для обучения использовали модель RoBERTa, основанную на архитектуре Transformer. После обучения на текстах даркнета получилась готовая модель DarkBERT. Ее качество сравнивали со стандартными моделями RoBERTa и BERT, которые обучались на обычных текстах. Тестировали модели на разных сценариях киберугроз. Например, иногда злоумышленники похищают конфиденциальные данные с сайтов и вымогают у их владельцев деньги. Если деньги не поступают, злоумышленники публикуют украденные данные. Нейросети получали текст сайта и решали задачу бинарной классификации: определить, размещают ли на нем утекшие данные. DarkBERT справился с этой задачей намного лучше (точность 84 процента у DarkBERT против 70 процентов у BERT и 44 процента у RoBERTa). Еще один пласт нелегальной активности в даркнете — это продажа запрещенных веществ. Авторы проверили, насколько хорошо разные модели понимают сообщения с форумов даркнета: нейросети выделяли ключевые слова в сообщениях о запрещенных веществах. Такие ключевые слова могут пригодиться сотрудникам правоохранительных органов, чтобы быстро искать сообщения о продаже веществ и определять продавцов. Эту задачу тестировали на DarkBERT и на похожей модели BERT, дообученной на тематическом сабреддите. Здесь DarkBERT снова обошел конкурента (точность определения топ-10 ключевых слов 60 процентов у DarkBERT против 40 процентов у BERT). В целом результаты показывают, что предобученная на текстах из даркнета нейросеть DarkBERT справляется с задачами кибербезопасности лучше, чем другие модели. Ее можно использовать, чтобы мониторить нелегальную активность в даркнете, вычислять преступников и предотвращать утечки данных. Но у DarkBERT есть свои ограничения. Во-первых, она умеет работать только с англоязычными текстами. Во-вторых, обучающую выборку из даркнета собирать сложно, потому что сайты непросто найти и превратить в тексты. А чем больше подходящих текстов, тем выше эффективность модели. Другие языковые модели тоже продолжают развиваться. Например, инженеры из Яндекса натренировали нейросеть на русскоязычных текстах и встроили ее в Алису.