Глубокое обучение заставило виртуального персонажа одеться по-человечески

Американские исследователи использовали метод глубокого обучения с подкреплением для того, чтобы научить виртуального персонажа одеваться. В процессе он учился сам, а алгоритм оценивал эффективность по положению одежды на его теле. Так ученым удалось правдоподобно одеть анимированного персонажа в футболку, рубашку и больничную робу. Препринт статьи опубликован на сайте Технологического института Джорджии.

Надевание одежды — довольно обычное для человека занятие, которое при этом требует выполнения координированных движений при взаимодействии с объектом. Именно поэтому автоматическое анимирование такого процесса — занятие сложное: можно, к примеру, обучить субъект симуляции на видео, но такие данные будут неоднородными, а потребоваться их может очень много.

Специалисты под руководством Александра Клегга (Alexander Clegg) из Технологического института Джорджии решили использовать для решения такой задачи метод глубокого обучения с подкреплением, суть которого заключается в том, что управляемый алгоритмом агент находится в среде и, выполняя различные действия, получает за них подкрепление — награду. Таким образом он учится выполнять последовательность действий, приводящую к наибольшей награде, и тем самым постепенно приближается к нужному создателям результату.

В созданной системе виртуальный человек учится надевать на себя одежду. Для обучения системы разработчики взяли три задачи (надевание рубашки, футболки и больничной робы: последнее — с помощью виртуального робота-помощника) и разделили их на небольшие подзадачи, каждую из которых для достижения результата необходимо выполнять по-очереди. К примеру, надевание рубашки заключается в том, чтобы засунуть одну руку в рукав, затем завести вторую руку за спину, поймать второй рукав, засунуть руку в него и вернуть тело в изначальное положение. Каждому движению алгоритм обучается по-отдельности, при этом положение субъекта в конце каждой подзадачи сверяется с началом следующей. В качестве подкрепления алгоритм оценивает то, насколько конечность виртуального человека одета в одежду в определенный момент симуляции (для этого на его теле располагались специальные условные «сенсоры») и насколько это соответствует тому, что должно быть в правильно работающей модели.

В результате исследователям удалось реалистично одеть виртуального персонажа в рубашку, футболку и больничную робу. В будущем такой алгоритм может применяться в анимации, что облегчит процесс ее создания из-за отсутствия необходимости в большом количестве данных. Свой проект ученые также покажут на конференции SIGGRAPH Asia, которая пройдет в Токио в начале декабря.

Разработчики учат алгоритмы и более сложным движениям: например, этой весной исследователи из США и Канады с помощью обучения с подкреплением научили виртуального персонажа сложным движениям, в том числе — на основе видео людей. 

Елизавета Ивтушок