Компания Amazon запустила сервис создания системы синтеза речи с голосом конкретного человека на основе образцов его речи. Amazon предлагает использовать сервис брендам, связанным с конкретным человеком или образом. Например, она создала для KFC алгоритм синтеза речи Полковника Сандерса.
Развитие алгоритмов синтеза звука, таких как WaveNet, привлекло к этой области внимание исследователей и компаний, в результате чего за последние годы появилось много голосовых помощников и систем синтеза речи, которые разработчики могут использовать в своих приложениях. Однако почти всегда система синтеза речи от одной компании может говорить одним или максимум несколькими голосами, причем они, как правило, не принадлежат известным людям. Есть исключения, например, голос Джона Ледженда в Google Assistant, однако в целом пока крупные разработчики голосовых помощников и систем синтеза речи до недавнего времени не позволяли создавать алгоритм, говорящий голосом конкретного человека.
Amazon, которая уже предоставляет разработчикам приложений сервис Polly для синтеза речи на разных языках и разными голосами, запустила в рамках этого сервиса функцию создания пользовательского голоса. Сервис доступен как в виде голоса для навыков голосового помощника Alexa, так и в виде отдельного API, получающего текст и выдающего файл с аудиозаписью, который можно использовать любым образом.
В первую очередь она нацелена на компании, которые хотят использовать в своих сервисах голос известного представителя бренда. В качестве примера Amazon показала результат работы с KFC, которая для своего канадского отделения создала голосовую модель символа компании — Полковника Сандерса:
Компания не раскрывает стоимость и подробности работы сервиса, однако, вероятно, он основан на алгоритме, описанном в статье сотрудников Amazon в 2019 году. Алгоритм берет данные конкретного человека и добавляет их к генерализованной нейросетевой модели, обученной на других данных. В результате на обучение модели требуется гораздо меньше образцов речи, чем при использовании других подходов, но качество синтеза получается высоким.
Пока одной из самых реалистичных и масштабно применяемых систем синтеза речи остается Google Duplex. Эта функция работает в США и Новой Зеландии, и позволяет забронировать столик в ресторане или совершить другое действие, попросив Google Assistant. После этого алгоритм сам найдет нужную информацию, в том числе телефон заведения, позвонит и сообщит пользователю итог. Система оказалась настолько реалистичной. что после запуска Google пришлось научить ее в начале звонка уточнять, что говориталгоритм, а не человек.
Григорий Копиев
Узнай, какой ты пирожочек
Спустя тысячи лет после событий сказки Красная Шапочка устраивается в службу доставки и получает заказ — корзинку необычных пирожков. Ее путь лежит сквозь кишащий людьми лес из стекла и стали. Все волки давно возглавляют корпорации зла за океаном, поэтому единственное, чего боится Красная Шапочка, — это высокие нагрузки на сервисы доставки. К счастью, коллеги из IT-отдела уже обработали 5 тысяч заказов в минуту, и 98 из 100 приедут точно в срок. Так что бабушка получит свой заказ еще горячим. В чем же секрет пирожков? Вместе с Ozon Tech мы испекли тест, который поможет узнать об их начинке. Кстати, ходят слухи, что C# и Go помогут найти особенно вкусные пирожки.