Figure и OpenAI показали робота с интегрированной GPT-моделью
Компания Figure показала видео, в котором человекоподобный робот Figure 01 демонстрирует способность распознавать речь, отвечать на вопросы, рассуждать, и выполнять команды, взаимодействуя с человеком. Для этого инженеры Figure AI совместили возможности робота и зрительно-языковой модели, разработанной компанией OpenAI.
Компания Figure AI впервые анонсировала разработку гуманоидного робота общего назначения Figure 01 весной 2023 года, а уже к осени показала первый рабочий прототип. Нейросетевые алгоритмы, управляющие движениями робота, обладают способностью обучаться с помощью демонстрации через телеуправление, после чего преобразуют информацию с сенсоров робота в его действия. Недавно компания продемонстрировала способность робота самостоятельно заваривать кофе, используя капсульную кофеварку, и переносить в руках контейнеры, действуя при этом полностью автономно.
В конце февраля 2024 года OpenAI сообщила о начале сотрудничества с Figure AI, и намерении интегрировать в роботов мультимодальные модели, способные обрабатывать и анализировать текст, изображение и звук. Уже 13 марта 2024 года Figure продемонстрировала первые результаты коллаборации.
В опубликованном видео робот Figure 01, стоящий за столом, поддерживает разговор с инженером, выполняет его команды и рассуждает, когда его просят об этом, одновременно выполняя действия с предметами. В начале видео Figure 01, отвечая на вопрос сотрудника, перечисляет предметы, лежащие перед ним на столе, а также описывает позу, стоящего перед ним человека. После вопроса собеседника о том, может ли он съесть что-нибудь из перечисленного, робот передает ему единственный съедобный предмет на столе — яблоко, а затем объясняет свой поступок и одновременно с рассуждениями выполняет команду по уборке выложенного перед ним мусора. После наводящего вопроса инженера робот рассуждает о том, где по его мнению должны находиться лежащие перед ним тарелка и стакан и перекладывает их в корзину для посуды, где уже находятся несколько таких же предметов. В заключении робот подводит итог — перечисляет выполенные действия и дает им оценку.
Некоторые технические подробности происходящего раскрыл основатель компании Бретт Эдкок (Brett Adcock) в соцсети X (бывший Twitter). По его словам, информация с бортовых камер робота поступает на вход большой зрительно-языковой модели (large vision-language model) OpenAI, которая отвечает за высокоуровневые возможности робота. Одновременно с этим собственные нейронные сети робота, которые также получают на вход изображение с камер с частотой 10 герц, преобразуют эту информацию в низкоуровневые сигналы, управляющие действиями робота с частотой 200 герц.
Из других деталей можно отметить, что во время разговора на экране, встроенном в лицевую часть головы робота, отображается точно такая же анимация, как и в официальном приложении OpenAI для чат-бота ChatGPT. Также обращает на себя внимание почти человеческая скорость и ловкость, с которой робот взаимодействует с предметами. Утверждается, что во время демонстрации робот действовал полностью автономно, а видео не было ускорено.
Инженеры из исследовательского отдела компании Toyota тоже разрабатывают человекоподобного робота. Правда, они использовали необычную концепцию — он покрыт надувными элементами со встроенными тактильными сенсорами и способен брать вещи в охапку — захватывать их двумя руками, прижимая к груди. Это позволяет ему удерживать сразу много объемных вещей одновременно, или поднимать более тяжелые предметы, так как их вес в этом случае распределяется между руками и корпусом.
Производитель утверждает, что использует андроида в повседневных операциях
Китайский производитель электромобилей XPENG представил человекоподобного робота собственной разработки Iron. Робот размером со среднего человека (178 сантиметров, 70 килограмм) может ходить и имитировать человеческие позы — стоять, сидеть и лежать. Антропоморфные руки с пятнадцатью степенями свободы имеют тактильные сенсоры и могут хватать, удерживать и перемещать различные предметы и инструменты. Суммарно Iron имеет более 60 суставов и 200 степеней свободы. Управляет роботом 40-ядерный процессор Turing AI собственной разработки XPENG. Iron использует технологии автономной навигации, которые также применяются в автомобилях XPENG, включая систему компьютерного зрения AI Hawkeye Vision и операционную систему Tianji AIOS. Компания утверждает, что роботы уже встроены в повседневные рабочие процессы на заводах и складах.