Функционирует при финансовой поддержке Федерального агентства по печати и массовым коммуникациям (Роспечать)

Алгоритм синтеза речи переозвучит фильмы оригинальными голосами

The French Dispatch / Searchlight Pictures, 2021

Компания Resemble AI, которая занимается разработками в области синтеза речи, представила Localize — программу для локализации речи с сохранением оригинального голоса. Пока что в сервисе доступны английский, французский, немецкий, голландский, испанский и итальянский языки, но в скором времени разработчики также обещают добавить японский, корейский и севернокитайский языки. Послушать примеры работы программы можно на сайте компании, а кратко о ней сообщает Engadget. 

Современные системы синтеза речи работают достаточно качественно: по крайней мере, уже пару лет назад их результаты были неотличимы от человеческой речи — а на производство нужно было не так много данных. Одна из нерешенных пока что проблем — это проблема локализации: готовых решений, которые позволяли бы качественно переводить речь с одного языка на другой с сохранением голоса, очень мало.

К примеру, в прошлом году Google представила свою такую систему на основе нейросетей с долгой краткосрочной памятью — Translatotron: он может качественно локализовать речь без промежуточного шага перевода речи в текст. Проект, однако, пока что остается исключительно исследовательским: компания, судя по всему, не использует его в своих сервисах и не предоставляет другим компаниям.

Resemble AI ушли чуть дальше: их Localize уже доступна для пользователей. Про сам алгоритм в основе программы известно немного, но разработчики решили не обходить шаг синтеза текста в речь, как это сделала Google, поэтому их сервис позволяет не просто переводить речь напрямую с сохранением всех характеристик, но также и синтезировать ее из текста. 

Кроме того, Resemble AI для своих продуктов (помимо Localize это также и стандартные сервисы синтеза речи) использует собственный вокодер на основе генеративно-состязательных нейросетей — HooliGAN, который в том числе позволяет генерировать речь на основе небольшого количества данных. Также компания выложила в свободный доступ API и документацию к нему: судя по ней, сторонние разработчики смогут управлять некоторыми параметрами синтеза локализованной речи (например, менять эмоциональный окрас сказанного).

Пока что в Localize доступны шесть языков: английский, немецкий, французский, испанский, итальянский и голландский, но разработчики обещают расширить их список, в первую очередь добавив корейский, японский и севернокитайский. Что касается сфер использования программы, то Resemble AI в первую очередь нацелена на то, что Localize сможет локализировать фильмы в разных странах с использованием оригинального голоса актера.

Также в локализации может пригодиться и воссоздание мимики говорящего на основе речи — и такие алгоритмы тоже активно разрабатывают.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.