Американские исследователи использовали модифицированную, «круговую» архитектуру генеративно-состязательной сети (generative adversarial network, сокращенно GAN), которая позволяет переносить информацию из одного видеоклипа на другой. С помощью него у исследователей получилось перенести речь одного человека на видеоклип с другим, достоверно сохраняя мимику последнего. Препринт статьи и примеры работы нейросети доступны на сайте Университета Карнеги – Меллона.
Архитектура генеративно-состязательной сети включает в себя две нейросети: генератор и дискриминатор. Первая создает объект (к примеру, изображение), а вторая — сравнивает его с объектами из обучающей выборки, доступа к которой у первой сети нет. Процесс продолжается до тех пор, пока дискриминатор не может различить созданный генератором объект и объект из обучающей выборки.
Для правильного обучения и работы такой сети необходим некий золотой стандарт: для дискриминатора в обучающей выборке должны быть примеры того, как должен выглядеть объект. С задачами переноса информации с одного объекта (например, фотографии или видеоклипа) на другой, поэтому, такой сети справиться сложнее. В прошлом году ученые из Университета Беркли модифицировали архитектуру GAN, сделав ее «круговой» (cycle-GAN): такая сеть оценивает не весь объект, а некоторые его характеристики (например, цвет или форму предметов на снимке) и сравнивает их с характеристиками, доступными в обучающей выборке. С помощью такой архитектуры можно, к примеру, превратить лошадь в зебру, поменяв окрас животного, или превратить фотографию в картину в стиле импрессионизма.
Работа такой нейросети, поэтому, управляется данными, то есть работает в зависимости от того, какую информацию она получила на вход и какую должна дать на выход. Исследователи из Университета Карнеги – Меллона под руководством Аайуша Банзаля (Aayush Bansal) использовали архитектуру круговой GAN для переноса информации из одного видеоклипа на другой. С помощью него им, к примеру, удалось перенести речь телеведущего Джона Оливера на видеоклип с телеведущим Стивеном Колбертом, сохраняя достоверную мимику последнего.
Помимо переноса мимики одного человека на лицо другого человека и мультипликационного персонажа исследователям также удалось наложить процесс расцвета одного цветка на другой:
С помощью такого подхода, по мнению ученых, можно достоверно переносить временные и пространственные характеристики между двумя видеоклипами. При этом полученный результат, благодаря управлению данными из обучающей выборки, остается натуральным.
Авторы новой работы — не первые, кому удалось эффективно переносить информацию между видеоклипами. В прошлом году американские исследователи представили метод, который позволяет вставлять речь в видеоряд, воссоздавая мимику говорящего по артикуляции сказанного. Кроме того, стоит вспомнить не такой натуральный, но все же достаточно известный метод Deep Fakes.
Елизавета Ивтушок
Кратко объясняем ключевые термины из области ИИ
Любую технологию, связанную с искусственным интеллектом, сегодня принято называть нейросетью. На самом деле это далеко не всегда корректно: например, GPT-4 — языковая модель на базе нейросети. Вместе с научно-исследовательским Институтом искусственного интеллекта AIRI мы подготовили материал, который поможет разобраться в том, какие технологии сегодня используют разработчики систем искусственного интеллекта, и на базовом уровне понять, как устроены последние достижения в этой области.