SberDevices собрала большой датасет для распознавания жестов

Kapitanov Alexander et al. / arXiv.org, 2022

Компания SberDevices представила большой датасет для обучения алгоритмов обнаружения и распознавания жестов. В нем содержится более полумиллиона кадров, на которых есть 18 видов жестов. Статья о сборе датасета опубликована на arXiv.org, а сам датасет доступен в SberCloud.

Жесты — это один из альтернативных способов управления компьютером и гаджетами наряду с голосовыми командами. Он позволяет управлять устройствами дистанционно и без звука, что может быть удобным, например, во время видеозвонков. К примеру, Zoom умеет распознавать, что один из собеседников поднял руку или показывает большой палец. Для обучения алгоритмов распознавания жестов, как и для обучения другим задачам, требуются большие датасеты.

Александр Капитанов (Alexander Kapitanov), Андрей Махлярчук (Andrew Makhlyarchuk) и Карина Кванчиани (Karina Kvanchiani) из SberDevices собрали один из крупнейших датасетов для этой задачи, он получил название HaGRID (HAnd Gesture Recognition Image Dataset). Он состоит из почти 553 тысяч кадров в разрешении 1920 на 1080 пикселей. На них запечатлены 34730 людей в разных сценах, которые используют один из 18 жестов. Авторы заявляют, что это крупнейший датасет по количеству примеров, а кроме того, он значительно превосходит аналоги по разрешению кадров, которое обычно составляет сотни пикселей по каждой стороне. При этом в нескольких датасетах, к примеру, EgoGesture и Jester (который авторы не упоминают в статье), содержатся миллионы кадров, в отличие от полумиллиона в HaGRID.

Датасет состоит из кадров с размеченными границами областей с руками, причем отмечена рука, которой делается жест. Также в разметке указано то, какой жест показывает человек. Данные для датасета собирали с помощью краудсорсинговых платформ «Яндекс.Толока» и ABC Elementary.

Компания опубликовала в своем облаке как сам датасет, так и обученные на нем модели для обнаружения и распознавания жестов.

Распознавать жесты можно не только по кадрам с камеры, но и по другим данным. К примеру, Apple Watch умеет делать это с помощью акселерометра, гироскопа и датчика пульса, также есть работы, в которых жесты распознавали с помощью микрофона и пьезоэлементов.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.