Американские исследователи использовали модифицированную, «круговую» архитектуру генеративно-состязательной сети (generative adversarial network, сокращенно GAN), которая позволяет переносить информацию из одного видеоклипа на другой. С помощью него у исследователей получилось перенести речь одного человека на видеоклип с другим, достоверно сохраняя мимику последнего. Препринт статьи и примеры работы нейросети доступны на сайте Университета Карнеги – Меллона.
Архитектура генеративно-состязательной сети включает в себя две нейросети: генератор и дискриминатор. Первая создает объект (к примеру, изображение), а вторая — сравнивает его с объектами из обучающей выборки, доступа к которой у первой сети нет. Процесс продолжается до тех пор, пока дискриминатор не может различить созданный генератором объект и объект из обучающей выборки.
Для правильного обучения и работы такой сети необходим некий золотой стандарт: для дискриминатора в обучающей выборке должны быть примеры того, как должен выглядеть объект. С задачами переноса информации с одного объекта (например, фотографии или видеоклипа) на другой, поэтому, такой сети справиться сложнее. В прошлом году ученые из Университета Беркли модифицировали архитектуру GAN, сделав ее «круговой» (cycle-GAN): такая сеть оценивает не весь объект, а некоторые его характеристики (например, цвет или форму предметов на снимке) и сравнивает их с характеристиками, доступными в обучающей выборке. С помощью такой архитектуры можно, к примеру, превратить лошадь в зебру, поменяв окрас животного, или превратить фотографию в картину в стиле импрессионизма.
Работа такой нейросети, поэтому, управляется данными, то есть работает в зависимости от того, какую информацию она получила на вход и какую должна дать на выход. Исследователи из Университета Карнеги – Меллона под руководством Аайуша Банзаля (Aayush Bansal) использовали архитектуру круговой GAN для переноса информации из одного видеоклипа на другой. С помощью него им, к примеру, удалось перенести речь телеведущего Джона Оливера на видеоклип с телеведущим Стивеном Колбертом, сохраняя достоверную мимику последнего.
Помимо переноса мимики одного человека на лицо другого человека и мультипликационного персонажа исследователям также удалось наложить процесс расцвета одного цветка на другой:
С помощью такого подхода, по мнению ученых, можно достоверно переносить временные и пространственные характеристики между двумя видеоклипами. При этом полученный результат, благодаря управлению данными из обучающей выборки, остается натуральным.
Авторы новой работы — не первые, кому удалось эффективно переносить информацию между видеоклипами. В прошлом году американские исследователи представили метод, который позволяет вставлять речь в видеоряд, воссоздавая мимику говорящего по артикуляции сказанного. Кроме того, стоит вспомнить не такой натуральный, но все же достаточно известный метод Deep Fakes.
Елизавета Ивтушок
Как машины научились синтаксическому анализу текста
Мнение редакции может не совпадать с мнением автора
Области искусственного интеллекта более полувека, но технологический прорыв, связанный с нейросетями, произошел лишь относительно недавно. По мнению профессора компьютерных наук и исследователя ИИ Юджина Черняка, который пришел в эту область в 1967 году, их цель с самого начала была верной, а вот пути ее достижения — ошибочными. В книге «Интеллектуальная история искусственного интеллекта: ИИ и я» («Издательство Института Гайдара»), переведенной на русский язык Артемом Смирновым, он рассказывает о ключевых идеях и фундаментальных заблуждениях, сопровождавших развитие этой дисциплины вплоть до наших дней. Предлагаем вам ознакомиться с фрагментом, посвященным обучению компьютеров синтаксическому анализу.