Разработчики из компании Meta* создали алгоритм, позволяющий создавать качественную анимированную 3D-модель головы с помощью фронтальной камеры смартфона. Статья будет представлена на конференции SIGGRAPH 2022.
Немало крупных IT-компаний и лабораторий занимается разработкой технологий для создания реалистичных анимированных 3D-аватаров. К примеру, сама Meta еще в 2019 году показала сферический стенд с более чем сотней камер и источников освещения, позволяющий снимать человека в центре с высоким разрешением и восстанавливать его 3D-модель. Во многом компания разрабатывает подобные технологии с прицелом на использование в виртуальной реальности. В частности, в апреле Meta показала работу нового алгоритма на прототипе VR-шлема с пятью камерами, направленными на разные части лица. Это позволило алгоритму в реальном времени воссоздавать реалистичную модель лица, которую можно показывать другим пользователям.
В новой работе инженеры из Meta Reality Labs под руководством Джейсона Сараги (Jason Saragih) использовали большой стенд с камерами для создания алгоритма, который после обучения позволяет создавать реалистичную модель головы с помощью обычного смартфона. Алгоритм состоит из двух основных частей: гиперсети, выучивающей универсальную модель головы и мимики, и персонализированной, которая создается на базе универсальной и выучивает модель для конкретного человека.
Для обучения универсальной сети инженеры использовали сферический стенд с 40 цветными камерами и 50 монохромными, установленными в радиусе 1,2 метра от центра сферы, где сидит человек во время съемки. Камеры снимали с разрешением 4096 на 2668 пикселя. Помимо камер в стенде есть 350 источников света, создающих равномерное освещение всей головы. Во время съемки человек в стенде должен был выполнить 65 мимических движений, посмотреть глазами в 25 разных направлений, прочитать 50 фонетически сбалансированных предложений и свободно подвигать головой или частями лица.
В создании датасета участвовало 255 человек разного пола, расы и возраста. Всего во время съемки было сделано 3,1 миллиона кадров, которые затем использовали для обучения.
После создания универсальной модели с помощью мощного стенда персонализированную модель можно создавать при помощи обычной камеры. На основе кадров с камеры алгоритм размечает на лице ключевые точки, затем создает 3D-модель головы и текстуру, которую потом можно наложить на 3D-модель для создания относительно реалистичного аватара. На следующем на основе универсальной сети и этой модели с текстурой создается финальная персонализированная модель-аватар с высоким разрешением. Чтобы она также хорошо повторяла мимику человека, его просят подвигать частями лица перед камерой.
Разработчики использовали для создания персонализированных моделей iPhone 12, чья фронтальная камера помимо RGB-слоя также выдает слой глубины. Несмотря на высокое качество генерации, авторы отмечают, что пока у алгоритма есть недостатки. В частности, после съемки персонализированная модель требует несколько часов для обучения, а также она плохо работает с очками и необычными прическами.
Создание реалистичной модели головы и лица можно использовать не только в виртуальной реальности, но и для видеосвязи. Так, разработчики из NVIDIA предложили заменять передачу видео на создание модели головы, передаваемой в сжатом виде, а инженеры из Google создали систему видеосвязи с объемным экраном, не требующим 3D-очков.
*Деятельность компании в России запрещена.
Точность распознавания составила до 89 процентов
Канадские ученые разработали математическую модель, с помощью которой можно отличать людей с диабетом второго типа от здоровых по голосу. Выяснилось, что между двумя группами существует разница в характеристиках голоса — в частности, в высоте тона и фазовом дрожании. Исследование опубликовано в Mayo Clinic Proceedings: Digital Health. Образование голоса — это сложный процесс, который связан с совместной работой дыхательной и нервной систем, а также голосового аппарата гортани. Поэтому потенциально, все, что может воздействовать на эти системы, может повлиять на голос. Поскольку при сахарном диабете второго типа у людей на протяжении длительного периода могут наблюдаться высокие уровни глюкозы в крови, ученые предположили, что концентрация глюкозы влияет на эластичные свойства голосовых связок. Кроме того, длительное повышение уровня глюкозы может приводить к пагубным последствиям и для нервной системы: например, к повреждению нервных и мышечных волокон. Поэтому есть веские основания полагать, что люди с сахарным диабетом второго типа будут иметь уникальные вокальные характеристики, по которым их можно отличить от здоровых людей. Подобные отличия уже находили в нескольких исследованиях, однако неизвестно, насколько их можно использовать для диагностики болезни. Джейси Кауфман (Jaycee Kaufman) с коллегами из компании Klick попросили 267 участников (170 мужчин: 113 без диабета и 57 с диабетом; 97 женщин: 79 без диабета и 18 с диабетом) записывать свой голос не менее шести раз в день в течение двух недель в мобильное приложение, произнося установленную фразу: «Привет, как дела? Какой у меня сейчас уровень глюкозы?». Всего ученые собрали 18465 образцов голоса. При первичном анализе 14 акустических характеристик ученые обнаружили, что между двумя группами наблюдается значимая разница в некоторых из них, включая высоту тона и интенсивность звучания, а также фазовые дрожания. Основываясь на этих различиях, ученые разработали математическую компьютерную модель, которая анализирует голосовые записи вместе с информацией о пациенте (возраст, пол, рост и вес). При тестировании на собранных записях программа определяла наличие диабета в 89 процентах случаев у женщин и в 86 процентах у мужчин. По словам ученых такая чувствительность находится на уровне чувствительности традиционных тестов на концентрацию глюкозы в крови натощак (85 процентов). Поэтому при дальнейшем совершенствовании технологии ученые рассчитывают превратить свой прототип в работающий инструмент диагностики сахарного диабета второго типа. Однако ученым следует рассмотреть и другие причины изменения голоса при диабете. Возможно, повышенный уровень глюкозы как-то влияет на экспрессию генов калиевых каналов. Ведь как выяснили исландские ученые, ген ABCC9, кодирующий регуляторную субъединицу АТФ-чувствительных калиевых каналов, оказался ответственным за высоту человеческого голоса.