Американские исследователи использовали модифицированную, «круговую» архитектуру генеративно-состязательной сети (generative adversarial network, сокращенно GAN), которая позволяет переносить информацию из одного видеоклипа на другой. С помощью него у исследователей получилось перенести речь одного человека на видеоклип с другим, достоверно сохраняя мимику последнего. Препринт статьи и примеры работы нейросети доступны на сайте Университета Карнеги – Меллона.
Архитектура генеративно-состязательной сети включает в себя две нейросети: генератор и дискриминатор. Первая создает объект (к примеру, изображение), а вторая — сравнивает его с объектами из обучающей выборки, доступа к которой у первой сети нет. Процесс продолжается до тех пор, пока дискриминатор не может различить созданный генератором объект и объект из обучающей выборки.
Для правильного обучения и работы такой сети необходим некий золотой стандарт: для дискриминатора в обучающей выборке должны быть примеры того, как должен выглядеть объект. С задачами переноса информации с одного объекта (например, фотографии или видеоклипа) на другой, поэтому, такой сети справиться сложнее. В прошлом году ученые из Университета Беркли модифицировали архитектуру GAN, сделав ее «круговой» (cycle-GAN): такая сеть оценивает не весь объект, а некоторые его характеристики (например, цвет или форму предметов на снимке) и сравнивает их с характеристиками, доступными в обучающей выборке. С помощью такой архитектуры можно, к примеру, превратить лошадь в зебру, поменяв окрас животного, или превратить фотографию в картину в стиле импрессионизма.
Работа такой нейросети, поэтому, управляется данными, то есть работает в зависимости от того, какую информацию она получила на вход и какую должна дать на выход. Исследователи из Университета Карнеги – Меллона под руководством Аайуша Банзаля (Aayush Bansal) использовали архитектуру круговой GAN для переноса информации из одного видеоклипа на другой. С помощью него им, к примеру, удалось перенести речь телеведущего Джона Оливера на видеоклип с телеведущим Стивеном Колбертом, сохраняя достоверную мимику последнего.
Помимо переноса мимики одного человека на лицо другого человека и мультипликационного персонажа исследователям также удалось наложить процесс расцвета одного цветка на другой:
С помощью такого подхода, по мнению ученых, можно достоверно переносить временные и пространственные характеристики между двумя видеоклипами. При этом полученный результат, благодаря управлению данными из обучающей выборки, остается натуральным.
Авторы новой работы — не первые, кому удалось эффективно переносить информацию между видеоклипами. В прошлом году американские исследователи представили метод, который позволяет вставлять речь в видеоряд, воссоздавая мимику говорящего по артикуляции сказанного. Кроме того, стоит вспомнить не такой натуральный, но все же достаточно известный метод Deep Fakes.
Елизавета Ивтушок
Она хороша в программировании и меньше галлюцинирует
Компания OpenAI представила новую флагманскую систему алгоритмов GPT-5, которая в ближайшее время заменит модели предыдущего поколения в ChatGPT. Пятое поколение GPT представляет собой единую систему, которая в зависимости от сложности запроса в реальном времени решает: быстро дать ответ, либо задействовать более глубокие рассуждения. GPT-5 демонстрирует повышенную производительность в программировании, написании текстов и ответах на вопросы, связанные со здоровьем, а также значительно реже галлюцинирует по сравнению с предыдущим поколением моделей OpenAI. GPT-5 будет доступна для всех пользователей ChatGPT, включая бесплатных, с ограничениями на количество запросов в зависимости от уровня подписки. Подробности опубликованы в блоге компании и системной карточке модели.