Нейросеть предсказала движения человека по видео

Американские разработчики создали алгоритм, который, получая видео с действиями человека, предсказывает его следующие действия в виде анимированной 3D-модели. К примеру, он достаточно точно предсказывает, как будет происходить бросок мяча, увидев только начало замаха руки, рассказывают авторы препринта, опубликованного на arXiv.org. Доклад о разработке будет представлен на конференции ICCV 2019.

Увидев человека, совершающего какое-либо действие, к примеру, идущего по улице, мы можем в общих чертах представить себе, что он будет делать дальше и как это будет выглядеть. Для компьютерных алгоритмов эта задача достаточно нетривиальна. Разработчики начали решать эту проблему давно и в этой области уже есть некоторые наработки, но они имеют ограничения. К примеру, некоторые алгоритмы работают только с одним кадром и не учитывают предыдущие состояния человека, а также не создают полноценную анимированную 3D-модель.

Группа разработчиков из Калифорнийского университета в Беркли под руководством Джитендры Малика (Jitendra Malik) создала алгоритм, способный по последовательности кадров напрямую предсказать будущее поведение человека в виде 3D-модели.

Алгоритм состоит из нескольких частей и этапов, но в нем можно выделить два ключевых этапа. В качестве исходных данных он получает последовательность кадров с двигающимся человеком. Для каждого кадра остаточная сверточная нейросеть ResNet-50 создает вектор, описывающий текущее состояние человека. На основе последовательности этих векторов нейросетевой кодировщик создает единое представление, которое описывает движения человека с начала ролика до текущего кадра.

Затем еще одна нейросеть создает на основе множества таких представлений до текущего кадра представление для следующего кадра. Затем этот процесс повторяется, но в качестве исходных данных уже используются не только настоящие представления, но и спрогнозированные. Каждое из этих представлений отдается нейросети, которая выдает 82 параметра, описывающих 3D-модель. Одно из следствий использования 3D-модели заключается в том, что она позволяет увидеть будущие действия человека с любого ракурса.

Разработчики обучили алгоритм на четырех публично доступных датасетах, в том числе Human3.6M, содержащем пары из видео и сопоставленных анимированных 3D-моделей. В основном эти датасеты содержали данные о спортивных действиях, к примеру, бросках мячей. В результате авторам удалось обучить алгоритм достаточно точно предсказывать движения людей, хотя некоторые расхождения с реальными видео все же есть.

В прошлом году другие американские разработчики создали нейросеть, способную предугадывать движение 3D-модели собаки по видео от первого лица на пять кадров вперед.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Человек + машина

Как искусственный интеллект делает работу безопаснее

В промышленности нередко приходится работать с газами, химикатами или большими неповоротливыми машинами. Хотя за последние 200 лет проведено немало полезных реформ, призванных сделать труд безопаснее, на предприятиях все еще требуется соблюдать осторожность. Рассказываем, как люди боролись за право на безопасный труд и как сегодня ИИ помогает там, где человек может пострадать.