Разработчики из Facebook AI Research создали алгоритм, позволяющий управлять движением человека на видео и менять фон. В основе алгоритма лежат две нейросети, одна из которых определяет позу человека и меняет ее в соответствии с командой пользователя, а вторая отвечает за создание нового реалистичного видеролика с измененным положением человека, рассказывают авторы статьи на arXiv.org.
Перенос объектов и стиля между изображениями — один из наиболее впечатляющих примеров, наглядно показывающих прогресс в области нейросетевых алгоритмов. Пожалуй, самый известный пример такого переноса — алгоритм пользователя deepfakes, который создал с его помощью порнографические ролики, в которых лица оригинальных актеров были реалистично подменены на лица знаменитостей. При этом такие алгоритмы обычно ограничены тем, что работают только для уже имеющихся роликов с предопределенными движениями и не позволяют в интерактивном режиме управлять движениями человека.
Исследователи из Facebook AI Research под руководством Янива Тайгман (Yaniv Taigman) разработали алгоритм, способный не только переносить движения между видеороликами, но и менять их по желанию пользователей. В основе программы лежат два нейросетевых алгоритма Pose2Pose и Pose2Frame. Оба алгоритма основаны на нейросети pix2pixHD, разработанной в 2017 году для переноса между изображениями или видеозаписями разных типов. Кроме того, авторы использовали алгоритм DensePose, который извлекает из двумерного кадра с человеком трехмерную модель его тела. После создания модели Pose2Pose превращает исходную запись с двигающимся человеком в запись с моделью его тела, двигающейся на черном фоне. На этом же этапе нейросеть принимает от пользователя команды, заставляющие человека на видео двигаться в ту или иную сторону в двумерном пространстве. На основе позы на текущем кадре и сигнала от пользователя нейросеть создает следующий кадр, где человек уже находится в другом месте на кадре.
На следующем этапе обработку производит уже алгоритм Pose2Frame, отвечающий за превращение технического ролика с позой человека в реалистичный видеоролик. Для каждого кадра она создает несколько новых, в том числе цветной кадр с человеком и маски с выделенным человеком и тенями от него. Эти кадры нейросеть объединяет и накладывает на заданный пользователем фон.
Эксперименты с алгоритмом показали, что он способен создавать достаточно реалистичные ролики, причем с разными действиями людей, а не только игрой в теннис. Однако на видео все же можно видеть, что в процессе работы нейросети создают множество артефактов изображения.
В прошлом году разработчики из NVIDIA создали нейросетевой автосимулятор. За расчет структуры игрового мира в нем отвечает игровой движок, создающий 3D-модели и последовательность кадров с семантической сегментацией областей. Таким образом получается видеоролик, на котором объекты разных типов окрашены в определенные цвета. После этого нейросетевой алгоритм для переноса изображений превращает семантически сегментированный ролик в реалистичную видеозапись.
*Facebook принадлежит компании Meta, деятельность которой в России запрещена.
Григорий Копиев
Она пригодится для прогноза погоды и поиска загрязнений в океане
Инженеры из MIT придумали модель, которая предсказывает океанические течения с помощью машинного обучения. Она хорошо отражает физические свойства течений, поэтому работает точнее других методов. Препринт исследования доступен на arXiv.org. Ученые исследуют течения, чтобы получать информацию о состоянии океана: искать нефтяные и пластиковые загрязнения, отслеживать передвижение рыб и водорослей. Если знать направление течений, можно точнее предсказывать погоду или даже нейтрализовать последствия аварий, таких как пожар на буровой станции Deepwater Horizon в Мексиканском заливе в 2013 году. Данные о направлении течений помогут оценивать масштабы катастроф, чтобы защищать ближайшие воды и побережья. Чтобы изучать течения, в океан запускают буи с GPS. По скорости движения буев определяют скорость и направление океанических течений, а также их закрученность и дивергенцию. Закрученность — это вращательное движение течения вокруг воображаемой оси, похожее на спираль. А дивергенция описывает, как вода опускается или поднимается в процессе движения. Иногда несколько течений объединяются и опускаются ближе ко дну, а иногда — поднимаются к поверхности и растекаются в разные стороны. В 2019 году ученые начали моделировать океанические течения с помощью Гауссовского процесса. Это метод машинного обучения, который основан на вычислении вероятностей. Но первые Гауссовские модели течений оказались неточными с физической точки зрения. Дело в том, что в модель Гауссовского процесса можно добавить информацию о распределении данных. В старую модель добавлялась информация о распределении одной величины — скорости буев. Поскольку величина только одна, закрученность и дивергенция в модели считаются распределенными одинаково и действуют в одном масштабе. Но с физической точки зрения это неверно. В реальности радиусы спиралей, которые образуют закрученные структуры воды, на порядок больше, чем масштабы схождений и расхождений течений при дивергенции. Группа ученых из Массачусетского технологического института (MIT) под руководством Тамары Бродерик (Tamara Broderick) придумала новую модель Гауссовского процесса, которая лучше отражает физические свойства океанических течений. Модель основана на теореме Гельмгольца о разложении векторного поля. Океан здесь выступает в роли векторного поля, каждая точка которого представляет скорость и направление движения воды. По теореме Гельмгольца, одно векторное поле можно представить как сумму двух других векторных полей. В случае с океаном, первое поле определяет закрученность течений, при нулевой дивергенции. А второе — дивергенцию течений, но без закрученности. Это позволило ученым добавить в Гауссовский процесс информацию о том, как распределены данные в каждом поле по отдельности. Такая модель более правильная с точки зрения физики и работает лучше. Качество проверяли на реальных и искусственных данных. Реальные данные получили от более чем 1000 буев в Мексиканском заливе Атлантического океана. Их записывала другая исследовательская группа в течение 2 месяцев в 2016 году, и собрала больше 10 миллионов примеров для обучения. Новую модель сравнили со старым алгоритмом, основанном на Гауссовском процессе без теоремы Гельмгольца. Модели оценивали на трех группах заданий: по предсказанию скорости, закрученности и дивергенции течений. Новая модель Гельмгольца обошла конкурентов в 20 из 24 экспериментов. Средняя ошибка модели Гельмгольца в экспериментах по предсказанию скорости составила 0,42, старой модели — 0,7. Средняя ошибка в предсказании дивергенции оказалась 0,53 для модели Гельмгольца и 0,54 для старой модели. Наконец, средняя ошибка модели Гельмгольца в экспериментах по предсказанию закрученности составила 0,47, а старой модели — 0,77. Ученые утверждают, что новая модель требует ненамного больше вычислительных ресурсов, хотя работает эффективней. Дальше авторы планируют научить ее предсказывать, как океанические течения меняются с течением времени. Другая задача, которую еще предстоит решить — как сделать модель более устойчивой к шуму в обучающих данных. Помимо неустойчивости к шуму, модель страдает от разрозненности данных. Буев, которые собирают данные, ограниченное количество. Все они находятся на разном расстоянии от друг друга, то есть распределены неравномерно. Это ограничивает эффективность модели. Модель научилась предсказывать течения в Атлантическом океане и сможет помочь следить за его загрязнением, но другие океаны тоже страдают от мусора. Недавно команда экологов исследовала загрязнения в Тихом океане и описала целую экосистему, которая образовалась в Большом тихоокеанском мусорном пятне. Там на плавающих кусках мусора активно живут и размножаются разные виды беспозвоночных.