Яндекс научил свой браузер переводить видео на английском языке: алгоритм распознает речь, переводит ее и озвучивает на русском языке. Разработчики отмечают, что при синтезе русскоязычного перевода браузер учитывает пол говорящего и темп его речи.
Больше половины контента в интернете, будь то тексты сайтов, видео на YouTube, научные статьи или мемы, выходит на английском языке. При этом свободно владеют им всего несколько процентов россиян. Но с каждым годом технологии все больше позволяют сгладить этот разрыв. Например, в большинстве браузеров есть встроенный переводчик страниц или дополнения с этой функцией. С видео и аудио дела обстоят хуже, и лишь на некоторых сайтах, таких как YouTube, есть функция создания субтитров и их перевода. При этом существующие алгоритмы уже давно позволяют реализовать переозвучивание видеороликов: приложения-переводчики, как правило, умеют распознавать речь на одном языке, переводить ее и синтезировать на другом.
Разработчики из Яндекса показали прототип алгоритма, который автоматически переозвучивает англоязычные видео в интернете на русский язык. Поскольку пока это лишь предварительная демонстрация, сейчас перевод доступен только для нескольких англоязычных роликов на YouTube, которые отобрали сами разработчики браузера. При использовании последней версии Яндекс.Браузера в Windows или macOS вокруг этих роликов появляется рамка с предложением посмотреть видео на русском (стоит отметить, что N + 1 не удалось опробовать функцию, даже при использовании самой свежей версии программы). При нажатии кнопки браузер несколько секунд готовит перевод, а затем без остановки запускает его, заглушая оригинальную речь на фоне.
При запуске перевода нейросети распознают речь и пол говорящего, а также размечают в ролике временные отрезки, соответствующие отдельным словам. После этого распознанный текст переводится и озвучивается системой синтеза речи, причем с учетом временных отрезков: в некоторых моментах речь ускоряется или замедляется, чтобы соответствовать оригиналу. А распознавание пола позволяет использовать корректную модель синтеза речи: мужскую или женскую, в зависимости от пола человека в оригинале.
В последние годы в алгоритмах перевода происходит заметный прогресс. Например, все чаще разработчикам удается избегать промежуточных шагов при переводе, которые могут увеличивать количество ошибок: в прошлом году разработчики из Facеbook создали многоязыковую модель, которая обходится без промежуточного перевода на английский, а Google научила алгоритм переводить устную речь, вообще не преобразуя ее в текстовое представление.
Григорий Копиев
У пациентов с разным цветом кожи
Хала Муадди (Hala Muaddi) с коллегами по Клинике Майо разработала и успешно протестировала систему на основе машинного зрения для диагностики инфекций послеоперационных ран по фотографиям. Распознавание проходит в две стадии: идентификации хирургического разреза и идентификации инфекции в ране. Для обучения и тестирования системы использовали более 20 тысяч снимков, сделанных в течение месяца после операции более чем шестью тысячами пациентов (медианный возраст 54 года; 61,4 процента —женщины) девяти больниц Клиники Майо. Данные о развитии инфекций у них брали в базе программы NSQIP. Четыре разных модели распознавания подвергли десятикратной перекрестной проверке на достоверность. Результаты работы опубликованы в журнале Annals of Surgery.