Компания Resemble AI, которая занимается разработками в области синтеза речи, представила Localize — программу для локализации речи с сохранением оригинального голоса. Пока что в сервисе доступны английский, французский, немецкий, голландский, испанский и итальянский языки, но в скором времени разработчики также обещают добавить японский, корейский и севернокитайский языки. Послушать примеры работы программы можно на сайте компании, а кратко о ней сообщает Engadget.
Современные системы синтеза речи работают достаточно качественно: по крайней мере, уже пару лет назад их результаты были неотличимы от человеческой речи — а на производство нужно было не так много данных. Одна из нерешенных пока что проблем — это проблема локализации: готовых решений, которые позволяли бы качественно переводить речь с одного языка на другой с сохранением голоса, очень мало.
К примеру, в прошлом году Google представила свою такую систему на основе нейросетей с долгой краткосрочной памятью — Translatotron: он может качественно локализовать речь без промежуточного шага перевода речи в текст. Проект, однако, пока что остается исключительно исследовательским: компания, судя по всему, не использует его в своих сервисах и не предоставляет другим компаниям.
Resemble AI ушли чуть дальше: их Localize уже доступна для пользователей. Про сам алгоритм в основе программы известно немного, но разработчики решили не обходить шаг синтеза текста в речь, как это сделала Google, поэтому их сервис позволяет не просто переводить речь напрямую с сохранением всех характеристик, но также и синтезировать ее из текста.
Кроме того, Resemble AI для своих продуктов (помимо Localize это также и стандартные сервисы синтеза речи) использует собственный вокодер на основе генеративно-состязательных нейросетей — HooliGAN, который в том числе позволяет генерировать речь на основе небольшого количества данных. Также компания выложила в свободный доступ API и документацию к нему: судя по ней, сторонние разработчики смогут управлять некоторыми параметрами синтеза локализованной речи (например, менять эмоциональный окрас сказанного).
Пока что в Localize доступны шесть языков: английский, немецкий, французский, испанский, итальянский и голландский, но разработчики обещают расширить их список, в первую очередь добавив корейский, японский и севернокитайский. Что касается сфер использования программы, то Resemble AI в первую очередь нацелена на то, что Localize сможет локализировать фильмы в разных странах с использованием оригинального голоса актера.
Также в локализации может пригодиться и воссоздание мимики говорящего на основе речи — и такие алгоритмы тоже активно разрабатывают.
Елизавета Ивтушок