Южнокорейские инженеры научили роботизированную перчатку понимать намерения пользователя по данным с камеры, установленной на его очках. Во время обучения алгоритм научился связывать изображение с одним из двух действий: сжатием или разжатием руки. Статья с описанием разработки опубликована в журнале Science Robotics.
Обычно двигательные намерения пользователя можно понять по активности его мышц. На этом принципе построена электромиография и основанные на ней контроллеры, к примеру, недавно такой представил стартап CTRL-labs. Однако такой метод работает только в случае, если сигналы от мозга достигают мышц конечностей. В случае с людьми, страдающими тетраплегией и другими видами частичного или полного паралича, такой метод неприменим. В таком случае оптимальным методом получения сигнала о планировании движений является электроэнцефалография, однако связывание активности мозга и моторных действий — это технически сложная, хотя и выполнимая, задача.
Исследователи под руководством Сон Хо Чжо (Sungho Jo) из Сеульского университета предложили более простой метод, позволяющий прогнозировать планируемые движения исключительно по изображению с камеры, направленной на руки пользователя и захватываемые объекты. В качестве аппаратной платформы авторы использовали роботизированную перчатку Exo-Glove Poly, состоящую из полимерной основы, внутри которой расположены тросы, натяжение которых вызывает сжатие руки. Кроме того, авторы использовали самодельные очки, на переносице которых установлена камера, поле зрения которой примерно совпадает с центром поля зрения человека.
В качестве программного обеспечения исследователи выбрали сверточную нейросеть ResNet 50, на основе которой они создали двухстадийную нейросеть, одна часть которой отвечает за пространственную информацию, то есть отношение между рукой и объектом на кадре, а вторая за временную, то есть отношение между положениями руки на соседних кадрах. Для обучения нейросети исследователи попросили здоровых добровольцев с камерой и электромиографическими датчиками на руке хватать объекты. В результате они получили датасет из 45004 изображений, которые были размечены как «хватание», «разжимание» или «отсутствие действия».
После обучения нейросеть научилась классифицировать показываемые ей изображения с камеры на аналогичные действия и таким образом давать команды роборуке. Сравнение ее команд с данными электромиографических датчиков показало, что нейросеть давала команду примерно на 0,3 — 0,8 секунды раньше, чем действие засекали электромиографические датчики.
В прошлом году японские ученые показали, что люди способны управлять роборукой, подключенной через электроэнцеографический интерфейс, даже если одновременно с этим они выполняют действия при помощи собственных рук. При этом добровольцы выполняли своими руками и роборукой задачи разного типа, к примеру, они смогли одновременно хватать предмет с помощью роботизированной руки и балансировать мяч с помощью собственных рук
Григорий Копиев