Нейросеть воссоздала объемную модель языка по фотографии

Stylianos Ploumpis et al. / arXiv.org, 2021

Британские разработчики научили нейросеть восстанавливать 3D-модель языка по фотографии человека. Потенциально такая разработка может увеличить реалистичность компьютерных 3D-аватаров, рассказывают авторы статьи, опубликованной на arXiv.org.

Существуют алгоритмы, создающие по фотографии 3D-модель лица или набор из нескольких десятков ключевых точек, довольно точно описывающих лицо человека и его динамику. Однако они работают лишь с основными частями лица, которые видны постоянно, и не умеют корректно восстанавливать форму языка, во многом из-за того, что в датасетах для их обучения мало фотографий с высунутым языком. Вместе с этим язык играет важную роль в мимике и передачи эмоций и речи, поэтому исправление этого пробела в алгоритмах — важная задача.

Разработчики из Имперского колледжа Лондона и компании Huawei во главе со Стефаносом Зафериу (Stefanos Zafeiriou) создали датасет для обучения алгоритмов, состоящий из фотографий и 3D-моделей людей с высунутым языком, и обучили на нем нейросеть, восстанавливающую объемную форму языка.

Авторы работы собрали датасет в лондонском Музее науки, используя стенд 3dMD, состоящий из нескольких камер и источников света, установленных с разных сторон от человека. С помощью него и 700 добровольцев они собрали около 1800 фотографий и соответствующих им 3D-моделей. Также они попросили художников создать 720 синтетических 3D-моделей головы с разными формами высунутого языка. Разработчики сделали датасеты доступными по запросу для других исследователей.

После сбора датасета разработчики создали алгоритм. Сначала они обучили автокодировщик, который создает из полной 3D-модели сжатую версию, по данным которой можно восстановить почти идентичную модель. Затем они создали на основе сверточной нейросети и этого автокодировщика модуль, создающей сжатое 3D-представление из фотографии, и добавили к нему еще один алгоритм, создающий из сжатого представления полноценную 3D-модель. Последнюю часть модуля они создали на основе своей предыдущей разработки — системы создания трансформируемых 3D-моделей головы (подробнее о них и их применении можно прочитать здесь), описываемых параметрами, а не только трехмерной сеткой.

Обучив алгоритм и проверив его работу на датасете с фотографиями знаменитых людей, авторы наглядно показали, что она, в отличие от передовых алгоритмов создания модели лица, способна качественно передавать форму языка:

В прошлом году NVIDIA разработала алгоритм нейросетевого сжатия для видеозвонков. Он отправляет на компьютер собеседника один кадр с человеком, а затем лишь ключевые точки лица, по которым затем на компьютере собеседника восстанавливается полноценные кадры.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.