Отбирающий игрушки робот-негодяй ускорил машинное обучение

CMU, 2017

Исследователи из Университета Карнеги — Меллона и компании Google представили новый подход к обучению роботов. В рамках этого подхода используется не только робот, обучающийся основной задаче, но и мешающий ему соперник, который вынуждает робота совершенствоваться. Работа была представлена на конференции ICRA 2017 и доступна на сайте arXiv.org, кратко о ней пишет сайт IEEE Spectrum.

Чтобы научить робота каким-то действиям в последнее время часто используется машинное обучение. Инженеры и исследователи компании Google не первый год занимаются обучением роботов захвату объектов и различным другим действиям, выполняемым с помощью роборук. К примеру, в 2016 году они научили робота корректировать свои движения при захвате предметов с помощью нейросети, а позже в этом же году аналогичную систему научили открывать двери. Во второй работе использовалось несколько роботов, параллельно выполнявших похожую задачу и отсылавших на сервер данные о ее выполнении, которые понемногу улучшали нейросеть. Таким образом, за счет параллельного накопления опыта роботы обучались в несколько раз быстрее.

В новой работе команда исследователей решила опробовать другой подход. Они оценивали успешность захвата не только поднятием предмета, но и проверкой того, насколько крепко робот его держит. Для этого исследователи добавили в систему два новых действия. Во-первых, после на первый взгляд успешного захвата робот тряс объект, чтобы проверить то, насколько надежно он закреплен. Но главное изменение заключалось в том, что в систему был добавлен соперник. Робот состоял из двух манипуляторов, один из которых занимался захватом различных предметов, таких как бытовые приборы и игрушки. Инженеры решили сделать вторую руку соперником, который пытался выхватить предмет из первой руки. Причем, как и основная, захватывающая рука, соперничающая рука также была подключена к самообучающейся нейросети.

Когда соперничающая рука отбирала предмет у захватывающей, обе системы получали опыт: одна из них положительный, а другая отрицательный. Таким образом исследователи воспроизвели в своем роботе классическое противоборство щита и меча, которое в конечном итоге значительно увеличило эффективность обеих систем: после обучения с соперничеством доля успешных захватов возросла до 82 процентов, по сравнению с 68 процентов успешных захватов без соперничества.


На конференции ICRA 2017 были представлены и другие разработки по машинному обучению, к примеру исследователи из Массачусетского технологического института разработали систему, которая позволяет переносить навыки между роботами разной конструкции.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.