13:41 16.07.21 2.3 IT

Яндекс.Браузер научился переводить и озвучивать англоязычные видео

Григорий Копиев

Яндекс научил свой браузер переводить видео на английском языке: алгоритм распознает речь, переводит ее и озвучивает на русском языке. Разработчики отмечают, что при синтезе русскоязычного перевода браузер учитывает пол говорящего и темп его речи.

Больше половины контента в интернете, будь то тексты сайтов, видео на YouTube, научные статьи или мемы, выходит на английском языке. При этом свободно владеют им всего несколько процентов россиян. Но с каждым годом технологии все больше позволяют сгладить этот разрыв. Например, в большинстве браузеров есть встроенный переводчик страниц или дополнения с этой функцией. С видео и аудио дела обстоят хуже, и лишь на некоторых сайтах, таких как YouTube, есть функция создания субтитров и их перевода. При этом существующие алгоритмы уже давно позволяют реализовать переозвучивание видеороликов: приложения-переводчики, как правило, умеют распознавать речь на одном языке, переводить ее и синтезировать на другом.

Разработчики из Яндекса показали прототип алгоритма, который автоматически переозвучивает англоязычные видео в интернете на русский язык. Поскольку пока это лишь предварительная демонстрация, сейчас перевод доступен только для нескольких англоязычных роликов на YouTube, которые отобрали сами разработчики браузера. При использовании последней версии Яндекс.Браузера в Windows или macOS вокруг этих роликов появляется рамка с предложением посмотреть видео на русском (стоит отметить, что N + 1 не удалось опробовать функцию, даже при использовании самой свежей версии программы). При нажатии кнопки браузер несколько секунд готовит перевод, а затем без остановки запускает его, заглушая оригинальную речь на фоне.

При запуске перевода нейросети распознают речь и пол говорящего, а также размечают в ролике временные отрезки, соответствующие отдельным словам. После этого распознанный текст переводится и озвучивается системой синтеза речи, причем с учетом временных отрезков: в некоторых моментах речь ускоряется или замедляется, чтобы соответствовать оригиналу. А распознавание пола позволяет использовать корректную модель синтеза речи: мужскую или женскую, в зависимости от пола человека в оригинале.

В последние годы в алгоритмах перевода происходит заметный прогресс. Например, все чаще разработчикам удается избегать промежуточных шагов при переводе, которые могут увеличивать количество ошибок: в прошлом году разработчики из Facеbook создали многоязыковую модель, которая обходится без промежуточного перевода на английский, а Google научила алгоритм переводить устную речь, вообще не преобразуя ее в текстовое представление.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

06:43 07.07.26 1.2 Психология IT

Видеоигры немного улучшили когнитивные функции

Выраженный эффект наблюдался только для памяти

Олег Лищук

Жумэй Чжао (Rumei Zhao) из Шанхайского педагогического университета и ее коллеги из Китая и Канады провели систематический обзор и метаанализ публикаций, которые показали, что практика в видеоиграх связана с небольшим, но заметным улучшением когнитивных функций. Ученые провели поиск по базам данных PubMed, Web of Science, Wiley, EBSCO, Scopus, CNKI и Wanfang и включили в исследование 133 работы, опубликованные в 2005–2025 годах, с более чем 14 тысячами участников и 269 размерами эффектов. По оценке с помощью инструмента JBI Checklist, качество 69,93 процента работ было средним, 25,56 процента — высоким и 4,51 процента — низким. Авторы провели три отдельных метаанализа для корреляционных, межгрупповых сравнительных и рандомизированных контролируемых исследований. Результаты опубликованы в журнале Acta Psychologica.