Нейросети научили виртуальных персонажей реалистичным сложным движениям

Исследователи из США и Канады разработали алгоритм глубокого обучения с подкреплением для виртуальных персонажей, выполняющих сложные движения на основе примеров, в том числе и записей движения настоящих людей. Алгоритм не просто может в точности повторить пример, а учится движению и может впоследствии подстраивать его под изменения окружающей среды или строения тела, сообщается на сайте Калифорнийского университета в Беркли. Разработчики показали, как обученные таким образом персонажи выполняют движения из боевых единоборств и спорта или перемещаются в сложной обстановке. Разработка будет представлена на конференции SIGGRAPH 2018, статья опубликована на arXiv.org.

В современной компьютерной графике для фильмов или игр используются виртуальные персонажи, которые имитируют движения человека или животных. Как правило, они могут либо в точности воспроизводить заданные последовательности действий либо допускают некоторую вариативность, но в таком случае заточены под конкретную задачу и плохо адаптируются к ее изменению или изменению среды. В качестве решения этой проблемы ведущие исследователи предлагают использовать машинное обучение для создания персонажей, которые учатся подобно людям и обладают способностью адаптироваться к разным ситуациям.

Группа исследователей под руководством Мишеля Ван де Панне (Michiel van de Panne) из Университета Британской Колумбии разработала алгоритм DeepMimic для обучения сложным движениям, выполняемым людьми или животными. Разработчики выбрали метод обучения с подкреплением, который часто применяется для решения подобных задач. Его суть заключается в том, что управляемый алгоритмом агент находится в среде и, выполняя различные действия, может получать за них награду. Таким образом, путем проб и ошибок он учится выполнять последовательность действий, приводящую к наибольшей награде и тем самым постепенно приближается к нужному создателям результату.

Для обучения исследователи создали гуманоидного виртуального персонажа и задавали движения-примеры, которые он должен был научиться выполнять. Эти движения могут быть как созданы искусственно, так и сняты с помощью захвата движений людей. Каждое такое движение-пример разбивается на множество промежуточных состояний. Функция вознаграждения алгоритма зависит от разницы между положением персонажа в примере и положением агента во время очередной попытки. Исследователи показали, как этот метод позволил научить алгоритм выполнять множество сложных движений, причем даже при изменении окружающей среды, внешних воздействиях или изменении строения агента:

Помимо функции вознаграждения в основе успеха разработанного алгоритма лежит два основных принципа. Обычно при обучении с подкреплением алгоритм выполняет случайные последовательности действий и получает оценку совершенных действий. Но в случае со сложными движениями, такими как сальто назад, вероятность того, что персонаж случайно сделает такое движение крайне мала. Соответственно, он просто не будет знать, что необходимая последовательность действий приводит к получению большой награды. Разработчики решили упростить задачу обучения, изменив начальные условия при каждом цикле тренировки. Алгоритм начинает выполнять последовательность действий не из одного и того же момента движения-образца, а из случайных, например, в середине сальто. Таким образом он получает данные о том, какие движение приводят к получению большой награды еще до того, как он научился доходить до этого движения из начальной точки, в данном случае из положения стоя.

Второй принцип, позволяющий эффективно обучать алгоритм, заключается в раннем прерывании неудачных циклов обучения. Если раннего прерывания нет, то после неудачной попытки выполнить задачу персонаж может практически неограниченное время пытаться продолжить выполнение. К примеру, после неудачного сальто он может упасть на спину и безуспешно пытаться встать или заново выполнить прыжок, но уже из положения сидя. Помимо времени обучения это означает, что датасет, собираемый во время обучения будет в основном наполнен именно такими примерами. Для того, чтобы этого не происходило, исследователи предложили задавать критические условия. В случае с выполнением сальто этими условиями могут быть касания пола спиной или головой — этого просто не может произойти при правильном выполнении такой задачи.

В прошлом году другая группа исследователей под руководством Мишеля Ван де Панне представила алгоритм DeepLoco, который также основан на обучении с подкреплением. Он был адаптирован для обучения двуногих виртуальных персонажей ходьбе и некоторым более сложным движением, например, с его помощью агенты научились пинать мяч к цели.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Сканеры отпечатков пальцев на 10 смартфонах удалось взломать методом перебора

На взлом одного смартфона ушло от 40 минут до 13 часов