Исследователи из Disney Research создали приложение, использующее обычную камеру на мобильном устройстве для распознавания позы человека и наложения на видео с камеры виртуального персонажа с такой же позой. Разработка была представлена на конференции CGVCVIP 2018.
Обычно для распознавания положения человеческого тела и отдельных его частей применяются наборы датчиков, закрепляемых прямо на теле и регистрирующих движения самостоятельно, или маркеры на теле, которые распознаются системой компьютерного зрения. Это позволяет получать точные результаты, но неудобно слабо применимо в повседневной жизни. В последние годы появилась более удобная альтернатива в виде алгоритмов, способных определять позу человека на обычных видеозаписях без дополнительных приспособлений.
Группа исследователей из Disney Research под руководством Мартина Гуэя (Martin Guay) создала приложение, умеющее распознавать положение частей тела по снимку с обычной камеры, подбирать аналогичную позу для виртуального персонажа и корректно накладывать его на видео с камеры. Алгоритм сначала создает двумерную модель тела человека на основе монокулярного изображения (полученного с одной камеры), а затем проецирует эту двумерную модель на трехмерное подпространство, составленное из заранее заданного набора поз виртуального персонажа.
Разработчики выбрали ограниченный набор поз, чтобы упростить подбор соответствия и устранить ошибки, связанные с определением глубины на двумерном изображении с камеры. Кроме того, приложению нужен визуальный маркер, помогающий создавать трехмерную сетку для корректного наложения персонажа на видео с камеры. В качестве маркера авторы использовали плакат с названием приложения.
Для распознавания положения частей тела исследователи применили открытый алгоритм OpenPose. Он получает изображение с камеры, а на выходе возвращает список местоположений сочленений частей тела и вероятность для каждого из них. Нейросеть обучили на большом наборе изображений с людьми и размеченными на них моделями тела. Стоит отметить, что алгоритм требует большой вычислительной мощности, поэтому после съемки изображения пересылались на сервер для обработки. После получения данных о расположении частей тела другой алгоритм находил наиболее похожую позу виртуального персонажа из заранее сформированного набора. В итоге приложение отображает рядом с пользователем виртуального двойника, копирующего позу человека:
Алгоритмы компьютерного зрения, работающие без маркеров и других приспособлений, применяют не только в развлекательных целях. К примеру, недавно инженеры из Великобритании и Индии создали патрульный дрон для автоматизированного распознавания насильственных действий в толпе, а другая группа ученых применила похожий алгоритм для отслеживания движений лабораторных животных, в том числе и небольших, например, дрозофил.
Григорий Копиев