Точность модели достигает 6,3 сантиметра
Инженеры создали браслет, способный создавать 3D-модель всего тела. В нем используются камеры, направленные в сторону тела, и нейросеть, которая создает по снимкам модель тела. Статья о разработке опубликована в Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies.
Системы захвата движений позволяют создавать цифровую модель тела человека, которую удобно использовать, например, для создания виртуальных аватаров в играх или кино. Эти системы можно разделить на два основных типа. Первые используют внешние датчики, а в некоторых случаях еще и визуальные маркеры на человеке. Вторые же не требуют внешних устройств и крепятся на теле или одежде. Второй подход гораздо удобнее и универсальнее, но в то же время он технически сложнее.
Часть разработчиков реализует второй подход с помощью устройств, создающих модель тела по косвенным данным. Так, мы рассказывали о том, как это удалось сделать по двум браслетам с акселерометрами и ботинкам с датчиками давления. Инженеры под руководством Чэн Чжан (Cheng Zhang) решили использовать для создания модели тела визуальные данные, но размещать камеры не отдельно от человека, а прямо у него на запястье.
Авторы предполагают, что такое устройство можно было бы реализовать в виде умных часов. Прототип же представляет собой браслет с несколькими камерами (от одной до четырех) и блоком с микроконтроллерами и аккумуляторами, который нужно держать в руке.
Алгоритм работает следующим образом. Сначала на каждом кадре размечается область, на которой есть человек. Затем он подается на сверточную нейросеть, причем, если используется несколько камер, то кажды с каждой обрабатываются параллельно отдельными «ветвями». На последнем этапе данные с каждой «ветви» объединяются и алгоритм выдает модель из 13 ключевых точек тела.
Данные для обучения разработчики собрали с помощью отдельной камеры глубины, которая снимала все тело одновременно со съемкой на камеры в браслете, и алгоритма, создающего из кадров аналогичную 3D-модель. Таким образом авторы собрали датасет для обучения из сырых данных с камер браслета и соответствующих им 3D-моделей.
Тестирование показало, что камер только на одной руке достаточно, для создания относительно точной 3D-модели человека: при использовании одной камеры точность составляет 6,9 сантиметра, а с четырьмя камерами она повышается до 6,3 сантиметра.
В 2019 году другая группа инженеров применила похожий подход и научила картонный VR-шлем со смартфоном внутри создавать модель тела пользователя. Разработчики закрепили на шлем две зеркальные полусферы: отражение в них захватывает все тело, а две сферы вместо одной позволяют снимать человека с немного разных ракурсов и получать данные о глубине.
Она превосходит по качеству все предыдущие модели
Компания OpenAI представила новую диффузионную генеративную модель машинного обучения под названием Sora, которая умеет создавать по текстовому описанию видео высокого качества с малым количеством артефактов, разрешением до 1920×1080 и продолжительностью до одной минуты. Помимо этого, Sora может дополнять новыми кадрами уже существующие видеофрагменты, а также создавать новые и анимировать уже существующие статичные изображения. Пост с кратким обзором возможностей модели, а также статья с некоторыми техническими подробностями опубликованы на сайте компании.