Дрон научили видеть насилие в толпе

Исследователи из Великобритании и Индии разработали систему на основе дрона, которая может выявлять насильственные действия среди людей, например, драки. Летающий над людьми мультикоптер в реальном времени передает данные с камеры на облачный сервер, на котором алгоритмы машинного обучения распознают на кадрах позы людей, характерные для насильственных действий, рассказывают разработчики в статье, которая будет представлена на конференции CVPR 2018.

Поскольку алгоритмы компьютерного зрения уже достаточно точны, их стали применять для автоматизации наблюдения и выявления преступлений. В некоторых странах системы видеонаблюдения в общественных местах используются вместе с подобными алгоритмами, помогающими распознавать людей в толпе и сверять их с базой розыска — к примеру, подобная система уже применяется в московском метро. Кроме того, есть разработки, позволяющие не только обнаруживать людей, но и анализировать их действия, например, существует алгоритм, обнаруживающий забытые вещи.

Несмотря на то, что сами по себе алгоритмы компьютерного зрения хорошо развиты, как правило они при анализе используют довольно неудобный источник данных — статично закрепленные камеры видеонаблюдения. Группа исследователей из Великобритании и Индии решила использовать для сбора данных дрон, который может летать над людьми. Стоит отметить, что авторы уже представляли подобную систему в 2014 году, но она имела гораздо меньшую точность, а распознавание велось не в реальном времени. Разработчики выбрали квадракоптер Parrot AR, оснащенный камерой, записывающей видео с разрешением 720p и частотой 30 кадров в секунду. Поскольку анализ такого видеопотока в реальном времени невозможно проводить на бортовом компьютере, данные пересылаются через интернет на облачный сервер с гораздо большей вычислительной мощностью.

Обработка изображения происходит в три этапа. Сначала кадры видео передаются разработанной в Facebook нейросети FPN, которая использует пирамиды изображений и созданные на их основе пирамиды признаков для эффективного распознавания людей на кадре независимо от их размера и фона. Затем части изображения, на которых система распознала людей, передаются сверточной нейросети, которая определяет на изображении человека 14 точек, из которых составляется упрощенная модель скелета. После этого алгоритм, использующий метод опорных векторов, анализирует вычисленное на предыдущем этапе положение частей тела и сопоставляет его с положениями, соответствующими насильственному поведению.

Для того, чтобы нейросеть научилась определять положение частей тела и понимать, что на кадре происходит насилие, исследователи создали датасет, состоящий из двух тысяч размеченных снимков, снятых с дрона. На снимках изображены несколько людей, примерно половина из которых вовлечены в насильственные действия: бьют или душат другого человека или направляют на него пистолет или нож. У каждого человека на снимке размечена модель скелета и подписано совершаемое им действие.

Исследователи разбили датасет на три части — 60 процентов снимков использовались для тренировки, и по 20 для проверки и тестирования. В результате средняя точность распознавания насилия оказалась сравнима с наземными аналогами — 88,8 процента. Кроме того, это значительно превосходит точность, полученную в предыдущей работе авторов, в которой, к тому же, распознавание изображений шло не в реальном времени.

Ранее китайские исследователи разработали нейросеть, способную распознавать преступников на фотографиях с точностью 89,5 процента. Для этого они использовали почти две тысячи фотографий из паспорта людей, половина из которых была преступниками. Анализ полученных в результате исследования данных показал, что существует четыре различных подтипа «преступных» лиц, хорошо отличающихся друг от друга, а лица законопослушных людей при этом кластеризовались на всего три подтипа.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Китайцы построили телеуправляемого робобоксера с рекордно быстрой реакцией

Время отклика на команды оператора составляет около 12 миллисекунд