Google научила роботов писать себе код

Они понимают инструкции, сформулированные простым языком

Григорий Копиев

Разработчики из Google предложили использовать генеративные языковые модели для управления роботами: модель принимает от пользователя команду, сказанную естественным языком, и создает для робота простой код на Python, позволяющий выполнить нужные действия. Статья и примеры работы системы опубликованы на сайте авторов.

Сейчас роботы в основном применяются в промышленности и других сферах, но компании давно хотят создавать и домашних роботов, помогающих по быту. И некоторые успехи в этом направлении уже есть. Например, роботы-пылесосы стали доступным гаджетом, который выпускают десятки производителей. Есть и отдельные примеры более универсальных домашних роботов-помощников (например, Amazon Astro), которые наблюдают за домом, но и они имеют весьма ограниченный набор умений.

Одно из самых востребованных потенциальных применений домашних роботов — помощь людям с ограниченными возможностями. Такому роботу необходимо уметь многое, в том числе приносить нужные предметы. В целом задача захвата предметов уже решена многими исследовательскими группами, но есть и другая проблема: как управлять таким роботом и как давать ему команды. Летом разработчики из Google под руководством Энди Цзена (Andy Zeng) разработали для роботов алгоритм, позволяющий им понимать команды человека и разбивать их на подзадачи. В новой работе они использовали похожий подход, а в качестве результата алгоритм выдает роботу код, необходимый для выполнения команды.

В качестве алгоритма для генерации кода они использовали несколько моделей от OpenAI (они сравнивались между собой, а не применялись одновременно). Модель получает описание задачи, сформулированное простым языком, например, «Сложи все кубы в пустую тарелку», и высокоуровневые данные о среде, например, о том, что перед роботом лежит красный куб на желтой тарелке. Затем модель генерирует код на Python, позволяющий выполнить описанную задачу и разбивающий ее на этапы. Этот код получается довольно простым, потому что данные о среде предоставлены в высокоуровневом виде через API, а действия самого робота или манипуляции с объектами заранее описаны в виде функций, которые модель может вызывать.

Разработчики проверили подход на исследовательских роботах Google, у которых есть голова с визуальными датчиками, рука, позволяющая хватать и перемещать объекты, и колесная база. Эксперименты показали, что роботы под управлением нового алгоритма не только могут выполнять базовые задания, но и понимают абстрактные указания, зависящие от контекста, например, слова «быстрее» или «немного».

В разработке роботов-помощников важна не только программная часть, но и аппаратная платформа, на которой можно проверять новые подходы. В 2020 году компания Hello Robot показала робота, который изначально создан для проверки алгоритмов и инструментов домашних роботов.