Яндекс.Переводчик освоил чувашский язык

К сервису Яндекс.Переводчик добавили еще один малый язык — чувашский. Для этого разработчикам пришлось собрать небольшой параллельный корпус из более 250 тысяч примеров фраз на чувашском и русском языках, обучить на нем нейросеть, а затем добавить к системе перевода патюркскую модель, которая учитывает сходства между другими тюркскими языками, и синтетические примеры перевода для обучения. Подробно о работе алгоритма можно прочитать в статье на Хабре.

Классический машинный перевод, основанный на статистической модели, требует большого количества данных — параллельного корпуса, в котором содержатся оригинальные и переведенные на язык источника тексты. Этот подход, однако, годится не всегда: для многих языков, в том числе и так называемых малых (языки малых народов), данных для качественного статистического перевода недостаточно.

Для того, чтобы обойти это ограничение, разработчики используют разные способы. Например, в 2018 году Facebook научил машинный перевод обходиться без параллельных корпусов вообще: такой перевод работает благодаря векторному представлению слов в несвязанных между собой текстов. Другой вариант — использовать информацию из родственных, но более частотных языков: этот подход успешно использует Яндекс при переводе, например, с английского на узбекский через один дополнительный шаг — перевод на турецкий, который также относится к группе тюркских языков (подробнее об этом вы можете прочитать в нашем материале «Переведется все»).

Этот же подход сервис решил использовать и для перевода чувашского. Для начала, однако, разработчики собрали сравнительно небольшой параллельный корпус из 250 тысяч фраз на русском с переводом на чувашский: на этих данных обучили нейросетевую модель перевода, а затем уже подключили к ней пантюркскую модель, которая учится переводить с английского на несколько тюркских языков, включая татарский, киргизский, башкирский и азербайджанский.

Дополнительно разработчики использовали синтетические примеры перевода русского на чувашский: по ним система училась правильному обратному переводу, с чувашского на русский, который (в случае, если перевод на чувашский оказывался качественным) позволял выделить правильные языковые модели согласования и порядка слов в предложении.

Перевод на чувашский и обратно в сервисе доступен для всех 97 языков.

По данным на 2010 год, число носителей чувашского языка в России — чуть больше миллиона человек, при этом сам язык носит статус уязвимого. О других языках малых народов России вы можете почитать в нашей серии материалов «Языки России».

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Языковой барьер

Непростой тест о человеческом общении