Они понимают инструкции, сформулированные простым языком
Разработчики из Google предложили использовать генеративные языковые модели для управления роботами: модель принимает от пользователя команду, сказанную естественным языком, и создает для робота простой код на Python, позволяющий выполнить нужные действия. Статья и примеры работы системы опубликованы на сайте авторов.
Сейчас роботы в основном применяются в промышленности и других сферах, но компании давно хотят создавать и домашних роботов, помогающих по быту. И некоторые успехи в этом направлении уже есть. Например, роботы-пылесосы стали доступным гаджетом, который выпускают десятки производителей. Есть и отдельные примеры более универсальных домашних роботов-помощников (например, Amazon Astro), которые наблюдают за домом, но и они имеют весьма ограниченный набор умений.
Одно из самых востребованных потенциальных применений домашних роботов — помощь людям с ограниченными возможностями. Такому роботу необходимо уметь многое, в том числе приносить нужные предметы. В целом задача захвата предметов уже решена многими исследовательскими группами, но есть и другая проблема: как управлять таким роботом и как давать ему команды. Летом разработчики из Google под руководством Энди Цзена (Andy Zeng) разработали для роботов алгоритм, позволяющий им понимать команды человека и разбивать их на подзадачи. В новой работе они использовали похожий подход, а в качестве результата алгоритм выдает роботу код, необходимый для выполнения команды.
В качестве алгоритма для генерации кода они использовали несколько моделей от OpenAI (они сравнивались между собой, а не применялись одновременно). Модель получает описание задачи, сформулированное простым языком, например, «Сложи все кубы в пустую тарелку», и высокоуровневые данные о среде, например, о том, что перед роботом лежит красный куб на желтой тарелке. Затем модель генерирует код на Python, позволяющий выполнить описанную задачу и разбивающий ее на этапы. Этот код получается довольно простым, потому что данные о среде предоставлены в высокоуровневом виде через API, а действия самого робота или манипуляции с объектами заранее описаны в виде функций, которые модель может вызывать.
Разработчики проверили подход на исследовательских роботах Google, у которых есть голова с визуальными датчиками, рука, позволяющая хватать и перемещать объекты, и колесная база. Эксперименты показали, что роботы под управлением нового алгоритма не только могут выполнять базовые задания, но и понимают абстрактные указания, зависящие от контекста, например, слова «быстрее» или «немного».
В разработке роботов-помощников важна не только программная часть, но и аппаратная платформа, на которой можно проверять новые подходы. В 2020 году компания Hello Robot показала робота, который изначально создан для проверки алгоритмов и инструментов домашних роботов.
Он действует полностью автономно и исправляет допущенные ошибки
Boston Dynamics опубликовала видеоролик с электрическим человекоподобным роботом Atlas. На видео робот самостоятельно перекладывает пластиковые накладки для автомобильных двигателей между контейнерами. В качестве входных данных робот получает список мест, откуда и куда необходимо переместить объекты, после чего использует модель компьютерного зрения для обнаружения и локализации в пространстве этих объектов (контейнеров и накладок). Все движения робота генерируются полностью автономно в режиме реального времени, без заранее заданной программы или дистанционного управления. Atlas оснащен комбинацией датчиков зрения, силы и проприоцепции, которые позволяют ему обнаруживать и реагировать на изменения в окружающей среде, такие как движущиеся объекты. Робот может замечать и исправлять собственные ошибки, например, останавливаться и выполнять действие повторно при неудачной попытке установить деталь.