Инженеры из Калифорнийского университета в Беркли разработали рекордно ловкого робота, которому в большинстве случаев удается захватывать незнакомые предметы произвольной формы. Препринт работы доступен на сайте arXiv.org.
Для людей захват бытовых предметов, таких как телефон или кружка, не представляет труда и совершенно привычен. Но для роботов это очень серьезная задача, как правило требующая больших вычислительных мощностей и применения машинного обучения.
В своей работе инженеры использовали серийно выпускаемого робота, состоящего из двух манипуляторов, а также камеру глубины, создававшую трехмерную модель лежащего перед роботом объекта в реальном времени. Для того чтобы научить робота самостоятельно подбирать технику захвата, инженеры решили использовать нейросеть с глубоким обучением. Для этого они создали базу из полутора тысяч трехмерных моделей различных предметов.
После виртуальной тренировки инженеры проверили робота с помощью реальных объектов. Робот захватывал предмет, если считал, что такой захват будет успешным с вероятностью 50 и более процентов. Если оценка давала более низкую вероятность, робот пытался перевернуть или подвинуть предмет и заново оценивал вероятность захвата. Успешными считались только те попытки, в которых робот захватил, переместил и потряс изделие, не уронив его.
Сначала роботу дали восемь объектов, знакомых ему по обучению, каждый из которых робот захватывал по десять раз из разных исходных положений. В этом случае успешными оказались 93 процента попыток. Затем инженеры решили оценить способность робота к абстрактному мышлению и предложили ему десять предметов, с которыми он в процессе обучения не встречался. На этот раз робот успешно выполнил задание в 80 процентах случаев. На обдумывание техники захвата робот тратил 0,8 секунды.
Подобные роботы-манипуляторы могут быть полезны для компаний, технологические процессы которых подразумевают ручную сортировку различных предметов.
Несмотря на рекордную эффективность, это не первая подобная разработка. К примеру, недавно был представлен робот, который также использует машинное обучение для перемещения различных предметов, но помимо «пальцев» имеет присоску для захвата. Некоторые исследователи используют совершенно другие конструкции, такие как робощупальце, обвивающееся вокруг предмета.
А также измерит расстояние до них
Американские ученые разработали технологию пассивного теплового зрения HADAR, которая по инфракрасному изображению получает информацию о температуре, материалах и текстуре поверхности объектов, их излучательной способности, а также умеет измерять расстояние. Технология позволяет в ночных условиях получать изображение, сопоставимое по качеству со стереоскопическими изображениями, получаемыми обычными RGB камерами при дневном освещении. Статья опубликована в журнале Nature. Для автономной навигации и взаимодействия с людьми роботам и беспилотникам нужна информация об окружении, которую они получают с помощью камер, лидаров, сонаров или радаров. Однако обычные камеры зависят от условий освещенности и плохо работают в ночное время и при плохой погоде. Кроме этого информация, получаемая с камер не содержит физического контекста, что может приводить к некорректной работе нейросетевых алгоритмов автопилота, который, к примеру, не может отличить настоящего человека от манекена. Активные сенсоры, такие как лидары и радары, при резком росте их числа начинают взаимно влиять друг на друга. Выходом могло бы стать использование в условиях недостаточной видимости камер, работающих в инфракрасном диапазоне. Однако из-за так называемого «эффекта призрачности» получаемые тепловизором изображения обычно выглядят как пятна без четкой текстуры. Это связано с тем, что поверх отражающихся от объекта инфракрасных лучей, которые несут информацию об особенностях его рельефа, накладывается его собственное тепловое излучение, которое засвечивает эту полезную информацию. Группа ученых под руководством Зубин Джакоб (Zubin Jacob) из Университета Пердью смогла справиться с этой проблемой. Они разработали технологию под названием HADAR (акроним от слов heat-assisted detection and ranging), которая с помощью машинного обучения извлекает из изображений, полученных в инфракрасном диапазоне, информацию о температуре объектов, излучательной способности материалов, из которых они состоят, а также их физической текстуре. Кроме того, технология позволяет определять расстояние до объектов на изображении. Выделение информации о собственном излучении объектов позволяет избавиться от «эффекта призрачности» и получить информацию о текстуре. Для этого авторы используют данные из библиотеки материалов, которая содержит информацию об их излучательной способности. Инфракрасное изображение фиксируется с помощью гиперспектральной камеры, после чего данные поступают на вход нейросетевой модели, которая производит декомпозицию исходных данных, выделяя из них информацию о температуре, собственном излучении и текстуре. Для обучения алгоритма исследователи использовали как настоящие изображения, полученные с помощью камеры, так и множество сгенерированных трехмерных сцен. Возможности технологии демонстрирует одна из сцен, на которой при слабом освещении запечатлен автомобиль черного цвета и человек, рядом с которым установлен вырезанный из картона портрет Альберта Эйнштейна в натуральную величину. Изображения, полученные с помощью обычной камеры, лидара и HADAR затем использовали для определения объектов с помощью алгоритма распознавания изображений. На изображении, полученном с помощью обычной камеры, алгоритм ошибочно распознал двух людей, приняв картонную фигуру за человека. На данных, полученных лидаром, оказалось невозможно определить автомобиль. При этом HADAR смог выделить все составляющие сцены, а также определить, что одна из человеческих фигур имеет сигнатуру краски на поверхности, а вторая покрыта тканью. Созданная технология может значительно улучшить системы автономной навигации беспилотных транспортных средств и роботов, дополнив уже существующие системы или даже заменив их. HADAR позволяет определять объекты и измерять расстояние по данным, полученным в ночное время, так же хорошо, как это делают традиционные системы компьютерного зрения, которые используют данные с камер в условиях дневного освещения. По словам авторов работы, в дальнейшем им предстоит решить проблему высокой стоимости оборудования для гиперспектральной съемки и невысокой производительности алгоритма. Сейчас процесс получения изображений и их обработки занимает минуты, но для работы в режиме реального времени это время необходимо сократить. Ранее мы рассказывали, как физики создали лидар, способный распознать метровые детали с рекордного расстояния в 45 километров в условиях высокого шума и слабого сигнала.