Алгоритм распознал нарисованный пальцем в воздухе текст

Григорий Копиев

Американские разработчики создали метод, позволяющий набирать текст, рисуя его пальцем в воздухе. Они разработали алгоритм, который использует данные со стереокамеры или перчатки с датчиками для отслеживания кончика пальца и распознавания рукописного текста. Метод можно применять для ввода данных при использовании VR-шлема, рассказывают авторы статьи, представленной на конференции CV4ARVR 2020.

Как правило, в VR-шлемах для управления используется контроллер, который пользователь держит в руке или обеих руках. С его помощью он может указывать на интересующие его объекты и взаимодействовать с ними с помощью кнопок. Для большинства взаимодействий такой интерфейс вполне подходит и не вызывает сильного дискомфорта. Но если пользователю нужно ввести текст, к примеру, для поиска нужного ему фильма или ролика, такой способ работает уже гораздо хуже, потому что ему приходится наводить курсор на отдельные буквы и нажимать их.

Ечжоу Ян (Yezhou Yang) и его коллеги из Университета штата Аризона разработали метод непрерывного рукописного ввода для VR-шлемов, который делает набор текста более естественным. Они выбрали два устройства, которые можно использовать для распознавания. Одно из них — это перчатка, у которой на конце указательного пальца установлены акселерометр и гироскоп для отслеживания траектории. Второе устройство — это контроллер Leap Motion, состоящий из двух инфракрасных камер и инфракрасной подсветки. Он самостоятельно распознает текущее положение всех частей кисти и выдает компьютеру готовые данные. В обоих случаях пользователю при вводе слова или комбинации символов надо просто начертить их пальцем в воздухе.

После того, как устройство собрало данные о траектории, алгоритм классификации на основе сверточной нейросети или метода опорных векторов, в зависимости от задачи, сопоставляет введенным пользователем данным данные из датасета. Разработчики проверили работу алгоритмов на нескольких задачах, в том числе распознавании рукописного текста по набору из 210 слов. Для английского языка точность распознавания составила 79,7 процента при использовании инфракрасного контроллера и 78,5 при использовании перчатки. Вместе с этим результаты для китайского языка оказались выше: 87,4 и 83,4 процента, соответственно.

Разработчики опубликовали на GitHub датасеты и код библиотеки для распознавания на Python. Также в статье отмечается, что вместе с кодом должны быть опубликованы и технические подробности работы алгоритмов.

Распознавание рукописных слов в VR-шлеме потенциально можно использовать и с существующими устройствами. Например, Oculus Quest еще в прошлом году получил обновление, добавляющее возможность отслеживать в реальном времени положение кистей рук и всех пальцев.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

18:02 22.05.25 1.7 IT Гаджеты

Google представила модель для генерации видео со звуком и поиск с чат-ботом

Ключевые анонсы с ежегодной конференции Google I/O 2025

Андрей Фокин

Прошедшая ежегодная конференция Google I/O 2025 была практически полностью посвящена новыми инструментам и продуктам на основе моделей машинного обучения. Среди них третье поколение генеративной модели Veo 3, которая может создавать видеоролики со звуком, платформа для создания фильмов Flow, новый режим поисковика с встроенным чат-ботом AI Mode, а также платформа Android XR для очков и гарнитур дополненной реальности. Также компания анонсировала новую модель Gemini Diffusion, которая использует диффузионный метод для создания текста. Презентации транслировались в прямом эфире на YouTube.