Kapitanov Alexander et al. / arXiv.org, 2022
Компания SberDevices представила большой датасет для обучения алгоритмов обнаружения и распознавания жестов. В нем содержится более полумиллиона кадров, на которых есть 18 видов жестов. Статья о сборе датасета опубликована на arXiv.org, а сам датасет доступен в SberCloud.
Жесты — это один из альтернативных способов управления компьютером и гаджетами наряду с голосовыми командами. Он позволяет управлять устройствами дистанционно и без звука, что может быть удобным, например, во время видеозвонков. К примеру, Zoom умеет распознавать, что один из собеседников поднял руку или показывает большой палец. Для обучения алгоритмов распознавания жестов, как и для обучения другим задачам, требуются большие датасеты.
Александр Капитанов (Alexander Kapitanov), Андрей Махлярчук (Andrew Makhlyarchuk) и Карина Кванчиани (Karina Kvanchiani) из SberDevices собрали один из крупнейших датасетов для этой задачи, он получил название HaGRID (HAnd Gesture Recognition Image Dataset). Он состоит из почти 553 тысяч кадров в разрешении 1920 на 1080 пикселей. На них запечатлены 34730 людей в разных сценах, которые используют один из 18 жестов. Авторы заявляют, что это крупнейший датасет по количеству примеров, а кроме того, он значительно превосходит аналоги по разрешению кадров, которое обычно составляет сотни пикселей по каждой стороне. При этом в нескольких датасетах, к примеру, EgoGesture и Jester (который авторы не упоминают в статье), содержатся миллионы кадров, в отличие от полумиллиона в HaGRID.
Сравнение HaGRID с аналогичными датасетами
Kapitanov Alexander et al. / arXiv.org, 2022
Датасет состоит из кадров с размеченными границами областей с руками, причем отмечена рука, которой делается жест. Также в разметке указано то, какой жест показывает человек. Данные для датасета собирали с помощью краудсорсинговых платформ «Яндекс.Толока» и ABC Elementary.
Пример размеченного кадра из датасета
Kapitanov Alexander et al. / arXiv.org, 2022
Компания опубликовала в своем облаке как сам датасет, так и обученные на нем модели для обнаружения и распознавания жестов.
Распознавать жесты можно не только по кадрам с камеры, но и по другим данным. К примеру, Apple Watch умеет делать это с помощью акселерометра, гироскопа и датчика пульса, также есть работы, в которых жесты распознавали с помощью микрофона и пьезоэлементов.
Григорий Копиев
Найдите общий язык с внеземной командой
Приветствуем, исследователь внеземных цивилизаций! Жители планеты Кешью обращаются к вам за помощью: им необходимо восстановить леса и почвы планеты, пострадавшие от добычи кубонита — материала для изготовления вычислительных машин. Теперь компьютеров на планете много, а вот полей для агрокультур и территорий с чистым воздухом мало. Помочь кешьюнианцам может приложение для контроля за посаженными деревьями, климатом и качеством воздуха. Это масштабный проект, к работе над которым будут привлечены жители со всей планеты. Вам нужно разобраться в местных нравах, собрать команду и организовать процесс разработки. Для того чтобы упростить задачу, вы можете использовать Playbook команды разработки Авито.