Роботы научились ходить путем проб и ошибок

Григорий Копиев

Исследователи из Канады и Сингапура разработали алгоритм, который позволяет двуногим виртуальным роботам обучаться хождению и бегу путем проб и ошибок, подобно тому как тем же навыкам обучаются люди. Ученые считают, что впоследствии этот алгоритм можно использовать и при обучении реальных роботов, а также при создании компьютерной анимации в играх и фильмах. Алгоритм был представлен на конференции по компьютерной графике SIGGRAPH 2017, а его подробное описание доступно на сайте Университета Британской Колумбии.

Раньше для обучения компьютерных программ или роботов каким-либо действиям инженерам приходилось «вручную» прописывать в кодах программ поведение и реакцию на те или иные условия. В последние десятилетия все чаще применяется другой подход — машинное обучение. Оно позволяет обучаемым алгоритмам не только следовать заранее заданным алгоритмам, но и самостоятельно искать наиболее оптимальный, на их взгляд, метод решения задачи.

Канадские инженеры решили применить эту стратегию для создания компьютерных персонажей и роботов, которые эффективно и реалистично ходят на двух ногах. Для этого они использовали глубокое обучение с подкреплением. Этот вид машинного обучения подразумевает, что обучаемый алгоритм при взаимодействии со средой получает ответ — награду или штраф. Представленная исследователями реализация алгоритма состоит из двух основных компонентов — низкоуровневого и высокоуровневого контроллеров-планировщиков. Низкоуровневый компонент отвечает за планирование конкретных шагов, стиль ходьбы, учитывает параметры близлежащего рельефа. Контроллер высокого уровня отвечал за более долгосрочное планирование — к примеру, позволял роботу планировать свой маршрут с учетом препятствий.

Обучение происходит в виртуальной среде с изменяемыми параметрами. Так, робот может находиться на узкой тропе в горах или на льду. Помимо этого, среда менялась динамически. Например, плоские и неподвижные поверхности сменялись подвижной поверхностью наподобие траволатора, также периодически на робота падали кубические блоки разного размера.

За счет машинного обучения робот научился ловко и быстро передвигаться в разных условиях и даже пинать мяч к цели. Исследователи считают, что в будущем алгоритм можно будет адаптировать для множества задач, не только связанных с робототехникой. К примеру, с его помощью можно будет создавать анатомически точные анимации движения людей в играх и фильмах с применением компьютерной графики, чтобы заменить используемые сегодня камеры и датчики захвата движения.

Несмотря на то, что существуют и другие системы обучения алгоритмов в виртуальных пространствах, перенос навыков в реальный мир или между роботами разной конструкции представляет собой серьезную проблему. Недавно специалисты из Массачусетского технологического института заявили, что частично решили эту проблему и создали систему, которая облегчает перенос навыков между роботами разной конструкции.

Григорий Копиев