13:49 15.08.19 2.8 IT

Нейросеть предсказала движения человека по видео

Григорий Копиев

Американские разработчики создали алгоритм, который, получая видео с действиями человека, предсказывает его следующие действия в виде анимированной 3D-модели. К примеру, он достаточно точно предсказывает, как будет происходить бросок мяча, увидев только начало замаха руки, рассказывают авторы препринта, опубликованного на arXiv.org. Доклад о разработке будет представлен на конференции ICCV 2019.

Увидев человека, совершающего какое-либо действие, к примеру, идущего по улице, мы можем в общих чертах представить себе, что он будет делать дальше и как это будет выглядеть. Для компьютерных алгоритмов эта задача достаточно нетривиальна. Разработчики начали решать эту проблему давно и в этой области уже есть некоторые наработки, но они имеют ограничения. К примеру, некоторые алгоритмы работают только с одним кадром и не учитывают предыдущие состояния человека, а также не создают полноценную анимированную 3D-модель.

Группа разработчиков из Калифорнийского университета в Беркли под руководством Джитендры Малика (Jitendra Malik) создала алгоритм, способный по последовательности кадров напрямую предсказать будущее поведение человека в виде 3D-модели.

Алгоритм состоит из нескольких частей и этапов, но в нем можно выделить два ключевых этапа. В качестве исходных данных он получает последовательность кадров с двигающимся человеком. Для каждого кадра остаточная сверточная нейросеть ResNet-50 создает вектор, описывающий текущее состояние человека. На основе последовательности этих векторов нейросетевой кодировщик создает единое представление, которое описывает движения человека с начала ролика до текущего кадра.

Затем еще одна нейросеть создает на основе множества таких представлений до текущего кадра представление для следующего кадра. Затем этот процесс повторяется, но в качестве исходных данных уже используются не только настоящие представления, но и спрогнозированные. Каждое из этих представлений отдается нейросети, которая выдает 82 параметра, описывающих 3D-модель. Одно из следствий использования 3D-модели заключается в том, что она позволяет увидеть будущие действия человека с любого ракурса.

Разработчики обучили алгоритм на четырех публично доступных датасетах, в том числе Human3.6M, содержащем пары из видео и сопоставленных анимированных 3D-моделей. В основном эти датасеты содержали данные о спортивных действиях, к примеру, бросках мячей. В результате авторам удалось обучить алгоритм достаточно точно предсказывать движения людей, хотя некоторые расхождения с реальными видео все же есть.

В прошлом году другие американские разработчики создали нейросеть, способную предугадывать движение 3D-модели собаки по видео от первого лица на пять кадров вперед.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

18:49 10.07.26 2.5 IT

ChatGPT научился одновременно говорить и слушать

Семейство моделей GPT-Live можно перебивать

Андрей Фокин

Компания OpenAI представила семейство голосовых моделей GPT-Live, которые могут воспринимать речь пользователя и генерировать ответ одновременно. Благодаря этому беседа с нейросетью в голосовом режиме становится более естественной: модель может вставлять реплики во время речи пользователя, подстраивается под его паузы и темп и корректно реагирует, когда ее перебивают.