Яндекс.Браузер научился переводить и озвучивать англоязычные видео

Яндекс научил свой браузер переводить видео на английском языке: алгоритм распознает речь, переводит ее и озвучивает на русском языке. Разработчики отмечают, что при синтезе русскоязычного перевода браузер учитывает пол говорящего и темп его речи.

Больше половины контента в интернете, будь то тексты сайтов, видео на YouTube, научные статьи или мемы, выходит на английском языке. При этом свободно владеют им всего несколько процентов россиян. Но с каждым годом технологии все больше позволяют сгладить этот разрыв. Например, в большинстве браузеров есть встроенный переводчик страниц или дополнения с этой функцией. С видео и аудио дела обстоят хуже, и лишь на некоторых сайтах, таких как YouTube, есть функция создания субтитров и их перевода. При этом существующие алгоритмы уже давно позволяют реализовать переозвучивание видеороликов: приложения-переводчики, как правило, умеют распознавать речь на одном языке, переводить ее и синтезировать на другом.

Разработчики из Яндекса показали прототип алгоритма, который автоматически переозвучивает англоязычные видео в интернете на русский язык. Поскольку пока это лишь предварительная демонстрация, сейчас перевод доступен только для нескольких англоязычных роликов на YouTube, которые отобрали сами разработчики браузера. При использовании последней версии Яндекс.Браузера в Windows или macOS вокруг этих роликов появляется рамка с предложением посмотреть видео на русском (стоит отметить, что N + 1 не удалось опробовать функцию, даже при использовании самой свежей версии программы). При нажатии кнопки браузер несколько секунд готовит перевод, а затем без остановки запускает его, заглушая оригинальную речь на фоне.

При запуске перевода нейросети распознают речь и пол говорящего, а также размечают в ролике временные отрезки, соответствующие отдельным словам. После этого распознанный текст переводится и озвучивается системой синтеза речи, причем с учетом временных отрезков: в некоторых моментах речь ускоряется или замедляется, чтобы соответствовать оригиналу. А распознавание пола позволяет использовать корректную модель синтеза речи: мужскую или женскую, в зависимости от пола человека в оригинале.

В последние годы в алгоритмах перевода происходит заметный прогресс. Например, все чаще разработчикам удается избегать промежуточных шагов при переводе, которые могут увеличивать количество ошибок: в прошлом году разработчики из Facеbook создали многоязыковую модель, которая обходится без промежуточного перевода на английский, а Google научила алгоритм переводить устную речь, вообще не преобразуя ее в текстовое представление.

Григорий Копиев