Meta научила смартфоны создавать реалистичную модель лица

Разработчики из компании Meta создали алгоритм, позволяющий создавать качественную анимированную 3D-модель головы с помощью фронтальной камеры смартфона. Статья будет представлена на конференции SIGGRAPH 2022.

Немало крупных IT-компаний и лабораторий занимается разработкой технологий для создания реалистичных анимированных 3D-аватаров. К примеру, сама Meta еще в 2019 году показала сферический стенд с более чем сотней камер и источников освещения, позволяющий снимать человека в центре с высоким разрешением и восстанавливать его 3D-модель. Во многом компания разрабатывает подобные технологии с прицелом на использование в виртуальной реальности. В частности, в апреле Meta показала работу нового алгоритма на прототипе VR-шлема с пятью камерами, направленными на разные части лица. Это позволило алгоритму в реальном времени воссоздавать реалистичную модель лица, которую можно показывать другим пользователям.

В новой работе инженеры из Meta Reality Labs под руководством Джейсона Сараги (Jason Saragih) использовали большой стенд с камерами для создания алгоритма, который после обучения позволяет создавать реалистичную модель головы с помощью обычного смартфона. Алгоритм состоит из двух основных частей: гиперсети, выучивающей универсальную модель головы и мимики, и персонализированной, которая создается на базе универсальной и выучивает модель для конкретного человека.

Для обучения универсальной сети инженеры использовали сферический стенд с 40 цветными камерами и 50 монохромными, установленными в радиусе 1,2 метра от центра сферы, где сидит человек во время съемки. Камеры снимали с разрешением 4096 на 2668 пикселя. Помимо камер в стенде есть 350 источников света, создающих равномерное освещение всей головы. Во время съемки человек в стенде должен был выполнить 65 мимических движений, посмотреть глазами в 25 разных направлений, прочитать 50 фонетически сбалансированных предложений и свободно подвигать головой или частями лица.

В создании датасета участвовало 255 человек разного пола, расы и возраста. Всего во время съемки было сделано 3,1 миллиона кадров, которые затем использовали для обучения.

После создания универсальной модели с помощью мощного стенда персонализированную модель можно создавать при помощи обычной камеры. На основе кадров с камеры алгоритм размечает на лице ключевые точки, затем создает 3D-модель головы и текстуру, которую потом можно наложить на 3D-модель для создания относительно реалистичного аватара. На следующем на основе универсальной сети и этой модели с текстурой создается финальная персонализированная модель-аватар с высоким разрешением. Чтобы она также хорошо повторяла мимику человека, его просят подвигать частями лица перед камерой.

Разработчики использовали для создания персонализированных моделей iPhone 12, чья фронтальная камера помимо RGB-слоя также выдает слой глубины. Несмотря на высокое качество генерации, авторы отмечают, что пока у алгоритма есть недостатки. В частности, после съемки персонализированная модель требует несколько часов для обучения, а также она плохо работает с очками и необычными прическами.

Создание реалистичной модели головы и лица можно использовать не только в виртуальной реальности, но и для видеосвязи. Так, разработчики из NVIDIA предложили заменять передачу видео на создание модели головы, передаваемой в сжатом виде, а инженеры из Google создали систему видеосвязи с объемным экраном, не требующим 3D-очков.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Яндекс выложил в открытый доступ языковую модель со 100 миллиардами параметров

Яндекс создал и опубликовал версию генеративной языковой модели YaLM со 100 миллиардами параметров, сообщается в пресс-релизе, поступившем в редакцию N + 1. Это крупнейшая русскоязычная модель и самая большая из тех, чей код и веса публично доступны (они опубликованы на GitHub). Кроме русского языка она также получила поддержку английского.