Проект OpenAI перенес обучение роботов в виртуальную реальность

Некоммерческая исследовательская лаборатория OpenAI, финансируемая Илоном Маском, представила метод обучения роботов, который подразумевает тренировку в виртуальной реальности. При этом робот способен обучиться выполнению задачи в реальном мире по единственному примеру от учителя в виртуальной реальности, говорится в блоге OpenAI.

Для тренировки роботов нередко используются методы машинного обучения: роботы уже могут коллективно обучаться выполнению одной задачи, сохранять равновесие, смягчать удар при падении, держать пистолет и даже правдоподобно давать пять. При этом в большинстве случаев для эффективной тренировки выполнения какой-либо задачи робот вынужден многократно ее повторять в реальном окружении, что занимает продолжительное время и может приводить к износу движущихся частей устройства. 

Исследователи из OpenAI продемонстрировали, что робота можно по единственной демонстрации в виртуальной реальности научить выполнять простые задачи. При этом робот сможет повторить действия с реальными объектами без дополнительной тренировки в реальном окружении. Для этого робот использует две нейросети.

Например, при работе с разноцветными кубиками первая нейросеть сначала обучается не на реальных фотографиях, а исключительно на автоматически генерируемых в виртуальной реальности сценах. В них по-разному располагаются кубы, меняется освещение, текстура поверхности и тому подобное. Благодаря большому объему подобных данных (сотни тысяч сцен), робот может легко различить кубики, даже если впервые видит реальный мир, а не симуляцию.

Вторая («имитационная») нейросеть отвечает непосредственно за действия робота. Для тренировки этой сети используется обучение с учителем на нескольких тысячах виртуальных примеров складывания кубиков, причем каждый раз кубики располагаются в разных позициях. В обучающей выборке каждый пример состоит из двух частей: успешное выполнение задачи с полным набором сопутствующих данных и однократное наблюдение за выполнением «со стороны». Во время наблюдения нейросеть тренируется предсказывать действия робота на основе данных, полученных из первой части примера.

В результате две нейросети позволяют полностью обучить робота выполнению задачи в виртуальной реальности, после чего устройство способно самостоятельно повторить действия с реальными объектами. Как отмечают разработчики, на данном этапе система выглядит просто и обучается выполнению не слишком сложных задач, однако в перспективе подобный подход может значительно упростить и ускорить обучение роботов.

Ранее исследователи из CSAIL MIT разработали систему, которая позволяет даже неопытному оператору управлять роботом, а также позволяет переносить навыки между роботами разной конструкции.

Стоит отметить, что виртуальная реальность используется и в других случаях — например, для тренировки систем управления беспилотными автомобилями (1, 2, 3). Также в конце 2016 года проект OpenAI выпустил платформу Universe, которая позволяет системам искусственного интеллекта обучаться, играя в компьютерные игры и получая награду за успешно пройденные испытания.