Американские исследователи использовали модифицированную, «круговую» архитектуру генеративно-состязательной сети (generative adversarial network, сокращенно GAN), которая позволяет переносить информацию из одного видеоклипа на другой. С помощью него у исследователей получилось перенести речь одного человека на видеоклип с другим, достоверно сохраняя мимику последнего. Препринт статьи и примеры работы нейросети доступны на сайте Университета Карнеги – Меллона.
Архитектура генеративно-состязательной сети включает в себя две нейросети: генератор и дискриминатор. Первая создает объект (к примеру, изображение), а вторая — сравнивает его с объектами из обучающей выборки, доступа к которой у первой сети нет. Процесс продолжается до тех пор, пока дискриминатор не может различить созданный генератором объект и объект из обучающей выборки.
Для правильного обучения и работы такой сети необходим некий золотой стандарт: для дискриминатора в обучающей выборке должны быть примеры того, как должен выглядеть объект. С задачами переноса информации с одного объекта (например, фотографии или видеоклипа) на другой, поэтому, такой сети справиться сложнее. В прошлом году ученые из Университета Беркли модифицировали архитектуру GAN, сделав ее «круговой» (cycle-GAN): такая сеть оценивает не весь объект, а некоторые его характеристики (например, цвет или форму предметов на снимке) и сравнивает их с характеристиками, доступными в обучающей выборке. С помощью такой архитектуры можно, к примеру, превратить лошадь в зебру, поменяв окрас животного, или превратить фотографию в картину в стиле импрессионизма.
Работа такой нейросети, поэтому, управляется данными, то есть работает в зависимости от того, какую информацию она получила на вход и какую должна дать на выход. Исследователи из Университета Карнеги – Меллона под руководством Аайуша Банзаля (Aayush Bansal) использовали архитектуру круговой GAN для переноса информации из одного видеоклипа на другой. С помощью него им, к примеру, удалось перенести речь телеведущего Джона Оливера на видеоклип с телеведущим Стивеном Колбертом, сохраняя достоверную мимику последнего.
Помимо переноса мимики одного человека на лицо другого человека и мультипликационного персонажа исследователям также удалось наложить процесс расцвета одного цветка на другой:
С помощью такого подхода, по мнению ученых, можно достоверно переносить временные и пространственные характеристики между двумя видеоклипами. При этом полученный результат, благодаря управлению данными из обучающей выборки, остается натуральным.
Авторы новой работы — не первые, кому удалось эффективно переносить информацию между видеоклипами. В прошлом году американские исследователи представили метод, который позволяет вставлять речь в видеоряд, воссоздавая мимику говорящего по артикуляции сказанного. Кроме того, стоит вспомнить не такой натуральный, но все же достаточно известный метод Deep Fakes.
Елизавета Ивтушок