Разработчики из компании Meta* создали алгоритм, позволяющий создавать качественную анимированную 3D-модель головы с помощью фронтальной камеры смартфона. Статья будет представлена на конференции SIGGRAPH 2022.
Немало крупных IT-компаний и лабораторий занимается разработкой технологий для создания реалистичных анимированных 3D-аватаров. К примеру, сама Meta еще в 2019 году показала сферический стенд с более чем сотней камер и источников освещения, позволяющий снимать человека в центре с высоким разрешением и восстанавливать его 3D-модель. Во многом компания разрабатывает подобные технологии с прицелом на использование в виртуальной реальности. В частности, в апреле Meta показала работу нового алгоритма на прототипе VR-шлема с пятью камерами, направленными на разные части лица. Это позволило алгоритму в реальном времени воссоздавать реалистичную модель лица, которую можно показывать другим пользователям.
В новой работе инженеры из Meta Reality Labs под руководством Джейсона Сараги (Jason Saragih) использовали большой стенд с камерами для создания алгоритма, который после обучения позволяет создавать реалистичную модель головы с помощью обычного смартфона. Алгоритм состоит из двух основных частей: гиперсети, выучивающей универсальную модель головы и мимики, и персонализированной, которая создается на базе универсальной и выучивает модель для конкретного человека.
Для обучения универсальной сети инженеры использовали сферический стенд с 40 цветными камерами и 50 монохромными, установленными в радиусе 1,2 метра от центра сферы, где сидит человек во время съемки. Камеры снимали с разрешением 4096 на 2668 пикселя. Помимо камер в стенде есть 350 источников света, создающих равномерное освещение всей головы. Во время съемки человек в стенде должен был выполнить 65 мимических движений, посмотреть глазами в 25 разных направлений, прочитать 50 фонетически сбалансированных предложений и свободно подвигать головой или частями лица.
В создании датасета участвовало 255 человек разного пола, расы и возраста. Всего во время съемки было сделано 3,1 миллиона кадров, которые затем использовали для обучения.
После создания универсальной модели с помощью мощного стенда персонализированную модель можно создавать при помощи обычной камеры. На основе кадров с камеры алгоритм размечает на лице ключевые точки, затем создает 3D-модель головы и текстуру, которую потом можно наложить на 3D-модель для создания относительно реалистичного аватара. На следующем на основе универсальной сети и этой модели с текстурой создается финальная персонализированная модель-аватар с высоким разрешением. Чтобы она также хорошо повторяла мимику человека, его просят подвигать частями лица перед камерой.
Разработчики использовали для создания персонализированных моделей iPhone 12, чья фронтальная камера помимо RGB-слоя также выдает слой глубины. Несмотря на высокое качество генерации, авторы отмечают, что пока у алгоритма есть недостатки. В частности, после съемки персонализированная модель требует несколько часов для обучения, а также она плохо работает с очками и необычными прическами.
Создание реалистичной модели головы и лица можно использовать не только в виртуальной реальности, но и для видеосвязи. Так, разработчики из NVIDIA предложили заменять передачу видео на создание модели головы, передаваемой в сжатом виде, а инженеры из Google создали систему видеосвязи с объемным экраном, не требующим 3D-очков.
*Деятельность компании в России запрещена.
В общей сложности японские ученые обнаружили четыре древних изображения
Группа японских ученых из Университета Ямагата с помощью глубокого обучения разработала инструмент, позволяющий выявлять ранее неизвестные геоглифы на плато Наска. Нейросеть обнаружила на аэрофотоснимках четыре ранее неизвестные древние фигуры, существование которых впоследствии подтвердили археологи. Находки представляют собой изображения гуманоида, пары ног или рук, рыбы с широко открытым ртом и птицы. Как сообщается в статье, опубликованной в Journal of Archaeological Science, разработанная нейросеть позволяет примерно в 21 раз быстрее найти потенциальные геоглифы, нежели это делает исследователь.