Яндекс запустил новую версию переводчика. Над переводом теперь будет работать гибридная система: кроме статистической модели, использовавшейся ранее, переводчик также будет использовать нейросеть. Об этом сообщается в блоге компании.
Существует несколько подходов к машинному переводу. Первый, самый распространенный подход, — статистический. Такой машинный перевод основывается на запоминании огромного количества информации, полученной из параллельных корпусов (одинаковых текстов на разных языках): это могут быть как отдельные слова, так и грамматические правила. Такой подход, однако, имеет очень важный недостаток: статистический машинный перевод запоминает информацию, но не понимает ее, поэтому такой перевод часто похож на много разных правильно переведенных кусочков, собранных в один не очень корректный с точки зрения грамматики и смысловой нагрузки текст.
Второй подход — нейросетевой. Он основан не на переводе отдельных слов и фраз, а целых предложений, и его главная цель — сохранить смысл, при этом добившись лучшего качества перевода с точки зрения грамматики. Такая технология перевода также может сохранять знания о языке, которые она получила в процессе обучения, — это позволяет ей справиться, например, с ошибками в согласовании падежа. Нейронный машинный перевод — сравнительно новый подход, однако, он уже успел себя зарекомендовать: с помощью нейросети Google Translate смог добиться рекордного по качеству перевода.
С сегодняшнего дня Яндекс.Переводчик работает на основе гибридной системы. Такая система включает в себя статистический перевод, использованный сервисом ранее, и перевод на основе работы нейросети. Специальный алгоритм-классификатор, работающий на основе CatBoost (системе машинного обучения, разработанной Яндексом) выбирает из двух вариантов перевода (статистического и нейронного) лучший — и выдает его пользователю.
Подробнее о работе новой версии Яндекс.Переводчика вы можете прочитать в нашем интервью с руководителем сервиса — британским компьютерным лингвистом Дэвидом Талботом.
Сейчас новая технология перевода доступна только при переводе с английского на русский (по словам компании, это самое популярное направление перевода). Во время работы с системой пользователь может переключиться между двумя моделями перевода (старого статистического и нового гибридного) и сравнить перевод старой и новой версии. В ближайшие месяцы разработчики Переводчика обещают включить и другие направления перевода.
Недавно Яндекс.Переводчик научился переводить с синдарина — языка эльфов, на котором говорят персонажи книг Дж. Р. Р. Толкина. Об этом вы можете прочитать в нашей заметке. Подробнее о системе CatBoost вы можете прочитать в нашем интервью с командой разработчиков, работавшей над ее созданием. Также в другом нашем материале вы можете прочитать о том, как Яндекс.Переводчик осваивает редкие языки.
Елизавета Ивтушок
Как устроен стандарт NB-IoT для автономных IoT-устройств
NB-IoT, или Narrow Band Internet of Things, — сравнительно новый стандарт связи, который появился в 2016 году. Он нацелен на взаимодействие широкого круга автономных устройств: датчиков, счетчиков и других умных устройств, которые применяются в промышленности, «умных городах», ЖКХ, сельском хозяйстве и так далее, — между собой и с умными системами управления. Вместе с МТС, которая в 2018 году запустила сеть NB-IoT в коммерческое использование и обеспечила самое широкое федеральное покрытие в России, рассказываем, в чем заключаются преимущества этой технологии.