Компания SberDevices представила большой датасет для обучения алгоритмов обнаружения и распознавания жестов. В нем содержится более полумиллиона кадров, на которых есть 18 видов жестов. Статья о сборе датасета опубликована на arXiv.org, а сам датасет доступен в SberCloud.
Жесты — это один из альтернативных способов управления компьютером и гаджетами наряду с голосовыми командами. Он позволяет управлять устройствами дистанционно и без звука, что может быть удобным, например, во время видеозвонков. К примеру, Zoom умеет распознавать, что один из собеседников поднял руку или показывает большой палец. Для обучения алгоритмов распознавания жестов, как и для обучения другим задачам, требуются большие датасеты.
Александр Капитанов (Alexander Kapitanov), Андрей Махлярчук (Andrew Makhlyarchuk) и Карина Кванчиани (Karina Kvanchiani) из SberDevices собрали один из крупнейших датасетов для этой задачи, он получил название HaGRID (HAnd Gesture Recognition Image Dataset). Он состоит из почти 553 тысяч кадров в разрешении 1920 на 1080 пикселей. На них запечатлены 34730 людей в разных сценах, которые используют один из 18 жестов. Авторы заявляют, что это крупнейший датасет по количеству примеров, а кроме того, он значительно превосходит аналоги по разрешению кадров, которое обычно составляет сотни пикселей по каждой стороне. При этом в нескольких датасетах, к примеру, EgoGesture и Jester (который авторы не упоминают в статье), содержатся миллионы кадров, в отличие от полумиллиона в HaGRID.
Датасет состоит из кадров с размеченными границами областей с руками, причем отмечена рука, которой делается жест. Также в разметке указано то, какой жест показывает человек. Данные для датасета собирали с помощью краудсорсинговых платформ «Яндекс.Толока» и ABC Elementary.
Компания опубликовала в своем облаке как сам датасет, так и обученные на нем модели для обнаружения и распознавания жестов.
Распознавать жесты можно не только по кадрам с камеры, но и по другим данным. К примеру, Apple Watch умеет делать это с помощью акселерометра, гироскопа и датчика пульса, также есть работы, в которых жесты распознавали с помощью микрофона и пьезоэлементов.
Григорий Копиев
История опенсорса в России
В 1982 году в СССР появилась Диалоговая единая мобильная операционная система (ДЕМОС). Советские инженеры создали ее на основе зарубежной ОС UNIX в Институте атомной энергии имени И.В. Курчатова, доработав исходники, полученные от западных коллег. Описание и внешний вид ДЕМОС легко найти в интернете. Там же доступен дистрибутив, который можно скачать и попробовать запустить, например, на эмуляторе SIMH. Операционная система ДЕМОС не единственная в своем роде. В СССР было много подобных разработок, которые создавались руками программистов-энтузиастов. У разработчиков и пользователей уже тогда начала складываться симпатия к программному обеспечению с открытым кодом — и впоследствии интерес к опенсорсу только усиливался. Рассказываем, с чего начинался и каких результатов достиг опенсорс в России.