Нейросеть научила Барака Обаму говорить под фонограмму

dcblog / flickr

Разработана технология, которая в скором времени сможет улучшить видеоконференции и дополнить виртуальную реальность. Ученые из Вашингтонского университета придумали систему, позволяющую вставлять стороннюю речь в видеоряд, практически точно воссоздавая артикуляционную мимику говорящего. Материалом для создания такой системы послужили 17 часов записей видеообращений 44-го Президента США Барака Обамы к американским гражданам. С препринтом статьи, которая будет представлена в августе на конференции SIGGRAPH 2017, можно ознакомиться на сайте университета.

Конвертирование аудиозаписей человеческого голоса в видео имеет огромное практическое применение: от улучшения видеоконференций, звук в которых очень часто отстает от видео, до использования в виртуальной реальности и кинопроизводстве. Такая технология разрабатывается уже очень давно, и материалом для нее служат видео, записанные в лабораторных условиях, на которых люди точно проговаривают отдельно взятые фонемы. До сих пор не было проведено работы по конвертации аудио в видео на основе реальных записей речи людей.

Авторы новой работы создали алгоритм реалистичного наложения сторонних аудиозаписей на видеоряд, изображающий говорящего человека. Их подход основывается на работе рекуррентных нейросетей. Из аудиозаписи сначала извлекаются отдельно взятые фонемы, из которых воссоздается артикуляционная мимика. На основе этого создается реалистичная форма губ, которая затем накладывается на нужное видео, а сам видеоряд настраивают так, чтобы движения головы говорящего выглядели естественно.

В результате исследователи совместили видеоряд обращений Барака Обамы к американским гражданам с аудио из других видео, в которых он говорит об отцовстве в эфире телешоу или о своем избрании в главные редакторы юридического журнала в 1990-ом году. Получившиеся фрагменты фрагменты при этом выглядят реалистично.


Созданная исследователями система улучшила подобную технологию, однако сама концепция наложения сторонней информации на видео не нова. В нашей заметке вы можете прочитать про технологию face2face, которая накладывает движения лица одного человека на видео, изображающее другого, а здесь — про разработку Disney Research, позволяющую проектировать грим на видео.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.