Яндекс запустил новую версию переводчика. Над переводом теперь будет работать гибридная система: кроме статистической модели, использовавшейся ранее, переводчик также будет использовать нейросеть. Об этом сообщается в блоге компании.
Существует несколько подходов к машинному переводу. Первый, самый распространенный подход, — статистический. Такой машинный перевод основывается на запоминании огромного количества информации, полученной из параллельных корпусов (одинаковых текстов на разных языках): это могут быть как отдельные слова, так и грамматические правила. Такой подход, однако, имеет очень важный недостаток: статистический машинный перевод запоминает информацию, но не понимает ее, поэтому такой перевод часто похож на много разных правильно переведенных кусочков, собранных в один не очень корректный с точки зрения грамматики и смысловой нагрузки текст.
Второй подход — нейросетевой. Он основан не на переводе отдельных слов и фраз, а целых предложений, и его главная цель — сохранить смысл, при этом добившись лучшего качества перевода с точки зрения грамматики. Такая технология перевода также может сохранять знания о языке, которые она получила в процессе обучения, — это позволяет ей справиться, например, с ошибками в согласовании падежа. Нейронный машинный перевод — сравнительно новый подход, однако, он уже успел себя зарекомендовать: с помощью нейросети Google Translate смог добиться рекордного по качеству перевода.
С сегодняшнего дня Яндекс.Переводчик работает на основе гибридной системы. Такая система включает в себя статистический перевод, использованный сервисом ранее, и перевод на основе работы нейросети. Специальный алгоритм-классификатор, работающий на основе CatBoost (системе машинного обучения, разработанной Яндексом) выбирает из двух вариантов перевода (статистического и нейронного) лучший — и выдает его пользователю.
Подробнее о работе новой версии Яндекс.Переводчика вы можете прочитать в нашем интервью с руководителем сервиса — британским компьютерным лингвистом Дэвидом Талботом.
Сейчас новая технология перевода доступна только при переводе с английского на русский (по словам компании, это самое популярное направление перевода). Во время работы с системой пользователь может переключиться между двумя моделями перевода (старого статистического и нового гибридного) и сравнить перевод старой и новой версии. В ближайшие месяцы разработчики Переводчика обещают включить и другие направления перевода.
Недавно Яндекс.Переводчик научился переводить с синдарина — языка эльфов, на котором говорят персонажи книг Дж. Р. Р. Толкина. Об этом вы можете прочитать в нашей заметке. Подробнее о системе CatBoost вы можете прочитать в нашем интервью с командой разработчиков, работавшей над ее созданием. Также в другом нашем материале вы можете прочитать о том, как Яндекс.Переводчик осваивает редкие языки.
Елизавета Ивтушок