Человекоподобный робот Figure 01 научился разговаривать и рассуждать без отрыва от работы

Figure и OpenAI показали робота с интегрированной GPT-моделью

Компания Figure показала видео, в котором человекоподобный робот Figure 01 демонстрирует способность распознавать речь, отвечать на вопросы, рассуждать, и выполнять команды, взаимодействуя с человеком. Для этого инженеры Figure AI совместили возможности робота и зрительно-языковой модели, разработанной компанией OpenAI.

Компания Figure AI впервые анонсировала разработку гуманоидного робота общего назначения Figure 01 весной 2023 года, а уже к осени показала первый рабочий прототип. Нейросетевые алгоритмы, управляющие движениями робота, обладают способностью обучаться с помощью демонстрации через телеуправление, после чего преобразуют информацию с сенсоров робота в его действия. Недавно компания продемонстрировала способность робота самостоятельно заваривать кофе, используя капсульную кофеварку, и переносить в руках контейнеры, действуя при этом полностью автономно.

В конце февраля 2024 года OpenAI сообщила о начале сотрудничества с Figure AI, и намерении интегрировать в роботов мультимодальные модели, способные обрабатывать и анализировать текст, изображение и звук. Уже 13 марта 2024 года Figure продемонстрировала первые результаты коллаборации.

В опубликованном видео робот Figure 01, стоящий за столом, поддерживает разговор с инженером, выполняет его команды и рассуждает, когда его просят об этом, одновременно выполняя действия с предметами. В начале видео Figure 01, отвечая на вопрос сотрудника, перечисляет предметы, лежащие перед ним на столе, а также описывает позу, стоящего перед ним человека. После вопроса собеседника о том, может ли он съесть что-нибудь из перечисленного, робот передает ему единственный съедобный предмет на столе — яблоко, а затем объясняет свой поступок и одновременно с рассуждениями выполняет команду по уборке выложенного перед ним мусора. После наводящего вопроса инженера робот рассуждает о том, где по его мнению должны находиться лежащие перед ним тарелка и стакан и перекладывает их в корзину для посуды, где уже находятся несколько таких же предметов. В заключении робот подводит итог — перечисляет выполенные действия и дает им оценку.

Некоторые технические подробности происходящего раскрыл основатель компании Бретт Эдкок (Brett Adcock) в соцсети X (бывший Twitter). По его словам, информация с бортовых камер робота поступает на вход большой зрительно-языковой модели (large vision-language model) OpenAI, которая отвечает за высокоуровневые возможности робота. Одновременно с этим собственные нейронные сети робота, которые также получают на вход изображение с камер с частотой 10 герц, преобразуют эту информацию в низкоуровневые сигналы, управляющие действиями робота с частотой 200 герц.

Из других деталей можно отметить, что во время разговора на экране, встроенном в лицевую часть головы робота, отображается точно такая же анимация, как и в официальном приложении OpenAI для чат-бота ChatGPT. Также обращает на себя внимание почти человеческая скорость и ловкость, с которой робот взаимодействует с предметами. Утверждается, что во время демонстрации робот действовал полностью автономно, а видео не было ускорено.

Инженеры из исследовательского отдела компании Toyota тоже разрабатывают человекоподобного робота. Правда, они использовали необычную концепцию — он покрыт надувными элементами со встроенными тактильными сенсорами и способен брать вещи в охапку — захватывать их двумя руками, прижимая к груди. Это позволяет ему удерживать сразу много объемных вещей одновременно, или поднимать более тяжелые предметы, так как их вес в этом случае распределяется между руками и корпусом.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Tesla Optimus поймал мяч новой рукой

Она имеет 22 степени свободы и приводы в предплечье