13:29 12.09.18 3.7 IT

Разработчики научились достоверно переносить информацию между видео

Елизавета Ивтушок

Американские исследователи использовали модифицированную, «круговую» архитектуру генеративно-состязательной сети (generative adversarial network, сокращенно GAN), которая позволяет переносить информацию из одного видеоклипа на другой. С помощью него у исследователей получилось перенести речь одного человека на видеоклип с другим, достоверно сохраняя мимику последнего. Препринт статьи и примеры работы нейросети доступны на сайте Университета Карнеги – Меллона.

Архитектура генеративно-состязательной сети включает в себя две нейросети: генератор и дискриминатор. Первая создает объект (к примеру, изображение), а вторая — сравнивает его с объектами из обучающей выборки, доступа к которой у первой сети нет. Процесс продолжается до тех пор, пока дискриминатор не может различить созданный генератором объект и объект из обучающей выборки.

Для правильного обучения и работы такой сети необходим некий золотой стандарт: для дискриминатора в обучающей выборке должны быть примеры того, как должен выглядеть объект. С задачами переноса информации с одного объекта (например, фотографии или видеоклипа) на другой, поэтому, такой сети справиться сложнее. В прошлом году ученые из Университета Беркли модифицировали архитектуру GAN, сделав ее «круговой» (cycle-GAN): такая сеть оценивает не весь объект, а некоторые его характеристики (например, цвет или форму предметов на снимке) и сравнивает их с характеристиками, доступными в обучающей выборке. С помощью такой архитектуры можно, к примеру, превратить лошадь в зебру, поменяв окрас животного, или превратить фотографию в картину в стиле импрессионизма.

Работа такой нейросети, поэтому, управляется данными, то есть работает в зависимости от того, какую информацию она получила на вход и какую должна дать на выход. Исследователи из Университета Карнеги – Меллона под руководством Аайуша Банзаля (Aayush Bansal) использовали архитектуру круговой GAN для переноса информации из одного видеоклипа на другой. С помощью него им, к примеру, удалось перенести речь телеведущего Джона Оливера на видеоклип с телеведущим Стивеном Колбертом, сохраняя достоверную мимику последнего.

Помимо переноса мимики одного человека на лицо другого человека и мультипликационного персонажа исследователям также удалось наложить процесс расцвета одного цветка на другой:

С помощью такого подхода, по мнению ученых, можно достоверно переносить временные и пространственные характеристики между двумя видеоклипами. При этом полученный результат, благодаря управлению данными из обучающей выборки, остается натуральным.

Авторы новой работы — не первые, кому удалось эффективно переносить информацию между видеоклипами. В прошлом году американские исследователи представили метод, который позволяет вставлять речь в видеоряд, воссоздавая мимику говорящего по артикуляции сказанного. Кроме того, стоит вспомнить не такой натуральный, но все же достаточно известный метод Deep Fakes.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

10:51 22.06.26 1.5 Психология IT

The Legend of Zelda и Yoshis повысили стоицизм и уменьшили чувство одиночества

Результаты получены в кросс-секционном исследовании

Олег Лищук

Британские и японские ученые провели кросс-секционное исследование и пришли к выводу, что игры с открытым миром из серии The Legend of Zelda, а также веселые и доступные в прохождении Yoshi’s способствуют стоическому отношению к жизни и отчасти за счет этого снижают чувство одиночества. Статья опубликована в журнале JMIR Serious Games.