Бот отрастил ноги для преодоления препятствий

Google Brain

Разработчики из Google Brain представили среду для обучения искусственного интеллекта, в которой созданный бот модифицирует собственное тело для лучшего выполнения задания. Алгоритм среды работает с помощью обучения с подкреплением, а в ходе симуляции бот может менять размер своих ног на 75 сантиметров от изначальной длины и толщины. Описание работы выложено на github.

Живые организмы постоянно адаптируют свое тело под нужды окружающей среды, причем не только в процессе эволюции. Профессиональные спортсмены, к примеру, должны постоянно тренироваться, чтобы показывать высокие результаты. Тот же подход можно использовать и в развитии искусственного интеллекта: для этого, к примеру, используется обучение с подкреплением, в ходе которого обучаемый агент взаимодействует с окружающей средой, улучшая свои навыки. 

Тем не менее, обычно в таком методе все же используются агенты с заранее заданными параметрами и в процессе обучения они учатся ими пользоваться. Разработчики из Google Brain во главе с Дэвидом Ха (David Ha) решили улучшить такой метод обучения, позволив агенту модифицировать собственные параметры для нужд среды. Для этого они использовали платформу OpenAI Gym, представленную год назад: в ней они создали «тело» из многоугольника и оснастили его парой ног. Затем боту давалось задание: пройти по местности или преодолеть несколько препятствий. За навигацию бота отвечал своеобразный лидар, который анализировал среду.

В процессе обучения боту можно было модифицировать свои ноги: менять их толщину или же размер (до 75 процентов от изначальной длины). Модификация тела позволяла ботам легче справляться с задачей: к примеру, для преодоления препятствий боту пришлось увеличить толщину задней ноги для более простой навигации.


В целом, бот отращивал ноги почти всегда. Тем не менее, для разработчиков было важно, чтобы поставленная перед агентом задача решалась с минимальным количеством затрат. Поэтому, к примеру, бот, которому нужно было пробежать по открытой местности без препятствий, свои ноги уменьшал: очень коротких для этого достаточно.

Несмотря на полезность такого метода и его относительную простоту (обучение с подкреплением требует минимального вмешательства человека), разработчики отметили, что он не всегда эффективен. В случае с обученным ботом самое правильное решение, которое позволило бы ему решать поставленную задачу с минимальным количеством затрат, может не существовать, поэтому сам он ему вряд ли научится. 

Недавно среду, в которой агент самостоятельно обучается, показал и другой разработчик. В созданной им симуляции можно создать свое существо и дать ему задание, а далее — следить за процессом обучения.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.