Американские разработчики создали нейросеть, способную распознавать действия людей как по видеозаписи, так и по данным радиоволнового сканирования через стену и другие препятствия. Авторы достигли этого благодаря тому, что сначала данные обоих типов преобразуются в скелетную модель, а затем ее анализирует единый алгоритм распознавания действий. Разработка будет представлена на конференции ICCV 2019, а статья о опубликована на сайте Массачусетского технологического института.
В области компьютерного зрения достаточно часто применяются технологии распознавания позы тела по видео. Зачастую эти алгоритмы используют для определения поведенческих параметров человека или сразу множества людей. Для этого алгоритм создает из исходных кадров скелетообразную модель тела, которую можно сравнить с позами, характерными для того или иного вида деятельности. К примеру, индийские разработчики создали дрон, способный распознавать насилие в толпе, а российские инженеры разрабатывают устройство, способное распознавать падение или необычное поведение пожилых людей в доме.
Как и другие технологии компьютерного зрения, алгоритмы для создания модели тела сильно зависят от качества кадров и освещения, а также не работают, когда тело на кадре закрыто другими объектами. Существуют также технологии, использующие в качестве данных радиоволновые сигналы, а не видеозапись. Однако пока эти технологии имеют существенно меньшую точность.
Инженеры из Массачусетского технологического института под руководством Дины Катаби (Dina Katabi) создали алгоритм, совмещающий оба типа данных. Его можно представить в виде трех основных модулей. Сначала «сырые» данные с камеры или радиоприемопередатчика подаются на соответствующую нейросеть, создающую скелетообразную модель тела. После этого следующий алгоритм анализирует модели на кадре, подбирая соответствующие действия. Он также способен определять и совместные действия, такие как рукопожатие.
Для получения визуальных данных разработчики использовали систему из нескольких камер, открытый алгоритм AlphaPose и алгоритм, превращающий двумерные скелетообразные модели в трехмерные. Для радиоволнового сканирования через стены и другие препятствия, инженеры создали приемопередатчик, работающий на частотах от 5,4 до 7,2 гигагерц. Он оснащен двумя наборами антенн, ориентированных вертикально и горизонтально. Они излучают радиоволны, а затем принимают отражения от объектов. Из этих сигналов формируются двумерные изображения, а затем нейросеть для создания скелетообразных моделей получает пару таких изображений (для вертикального и горизонтального массива антенн).
Разработчики обучили нейросети, входящие в состав алгоритма, на нескольких датасетах, в том числе собственным для создания модели по радиосигналам, а также публично доступном датасете распознавания действий PKU-MMD. Тестирование алгоритма показало, что его точность определения действия при видимости человека составляет 87,8 процента, а при работе через стену точность снижается до 83 процентов.
Недавно другие американские разработчики создали метод идентификации человека через стену по видеозаписи и сигналу Wi-Fi. Видеозапись в нем используется для создания модели изменения принимаемого радиосигнала, а затем реальные данные с Wi-Fi приемника сопоставляются с этой моделью.
Григорий Копиев