Разработчики исследовательского подразделения Microsoft создали интерактивный мат, позволяющий интегрировать реальные объекты в компьютерные программы. Он может распознавать прикосновение объектов, их форму и перемещение по поверхности мата, а также жесты рук пользователя рядом с поверхностью. Создатели системы продемонстрировали несколько вариантов ее использования, к примеру, в качестве интерактивного поля, которое игроки могут для карточных игр, сообщается в блоге компании, а также статье с описанием разработки, которая будет представлена на конференции CHI 2018.
Взаимодействие с компьютерами в основном подразумевает, что все объекты виртуальны и отображаются на экране, а управление ими происходит с помощью устройств ввода, таких как мышь, клавиатура или контроллер. В качестве одного из перспективных способов взаимодействия людей с компьютерами предлагается технология дополненной реальности, которая позволяет виртуальным объектам «выйти» за пределы компьютерного экрана в реальный мир. Но она не позволяет сделать обратного — интегрировать реальные объекты в виртуальный мир.
Инженеры из Microsoft Research под руководством Хайянь Чжан (Haiyan Zhang) создали в рамках проекта Zanzibar систему, которая позволяет использовать настоящие объекты для взаимодействия с виртуальным миром. В ее основе лежит специальный складываемый мат размером близкий к формату A3, в одном из торцов которого располагается жесткий корпус с вычислительными компонентами и аккумуляторами, которых достаточно для двух часов работы. В мягкой части мата расположены массивы NFC-антенн и емкостных датчиков.
Поскольку создатели решили использовать не единую NFC-антенну, а массив небольших антенн, мат может распознавать сразу несколько NFC-меток на расстоянии до трех сантиметров от своей поверхности и определять их точное положение. Помимо этого объекты могут использовать энергию антенн для питания простых компонентов, к примеру, светодиодов. Массив емкостных датчиков позволяет мату определять место прикосновения к нему, форму контакта и даже распознавать движение рук в десяти сантиметров от поверхности.
Создатели мата продемонстрировали множество сценариев его использования в игровых и образовательных целях. Например, для него можно создавать игровые фигурки с NFC-меткой, которая будет распознаваться системой и управлять персонажем в игре в соответствии с перемещением реальной фигурки. Также мат может служить полем, на которое игроки будут выкладывать карты в карточных играх — они будут распознаваться системой и участвовать в бою. Кроме того, создатели показали, что мат можно применять для обучения. К примеру, пользователь может выкладывать NFC-карточки с буквами, которые необходимо «обрисовать» движением пальца.
Разработчики написали SDK для создания программ, поддерживающих устройство. SDK адаптирован для игр под Windows и iOS на популярном игровом движке Unity. С его помощью две игровые студии создали карточные игры для мата, для управления которыми используются реальные карты, фигурки или жесты рук.
Отчасти похожую систему Amiibo разработала и применяет в нескольких своих игровых приставках компания Nintendo. Они могут распознавать приближение специальных фигурок или карт персонажей с NFC-метками и совершать действия в игре, например, призывать соответствующего персонажа или получать его одежду. Аналогичную систему Skylanders производит компания Activision.
Григорий Копиев
Они распознают слова с 95-процентной точностью с помощью нейросети
Американские инженеры разработали очки, способные распознавать речь по движению губ пользователя. Для этого в оправу очков встроены два миниатюрных эхолокатора, которые получают информацию о малейших движениях губ и кожи лица, а алгоритм машинного обучения предсказывает произнесенные слова и команды почти с человеческой точностью. Доклад по результатам работы представлен на конференции CHI’23. Системы распознавания речи на основе мимики человека имеют большой потенциал практического применения. Они могут использоваться не только людьми с нарушениями речи, но и в тех случаях, когда говорить вслух становится невозможно, например, из-за сильного окружающего шума или в социально неприемлемых ситуациях. Многие существующие технологии распознавания речи по мимике используют в качестве входных данных видеоизображение. Однако для этого необходимо, чтобы перед лицом пользователя постоянно находилась видеокамера, что может быть не всегда удобно и безопасно. Кроме того, в этом случае эффективность распознавания зависит от условий освещения. Инженеры из Корнельского университета под руководством Чэня Чжана (Cheng Zhang) решили применить вместо видеокамер эхолокацию. Они создали технологию EchoSpeech, которая позволяет бесконтактным образом с помощью ультразвуковых волн отслеживать небольшие движения губ и кожи лица во время шепота. Разработанный прототип устройства представляет собой обычные очки, в нижней части оправы которых с одной стороны расположена пара звуковых динамиков, которые излучают непрерывные частотно-модулированные ультразвуковые сигналы. Отраженные от различных участков кожи лица и губ сигналы затем попадают на установленную с противоположной стороны очков пару микрофонов. Для того чтобы сигналы от каждого из двух динамиков можно было различить, частоты излучаемых сигналов отличаются. Множество отраженных звуковых сигналов образуют профиль эха — последовательность изменяющихся во времени кадров, которая содержит информацию о расстоянии до окружающих поверхностей, от которых отражается звук. Из этих данных отфильтровываются шумы и паразитные сигналы от фоновых объектов окружения, находящихся на удалении, чтобы выделить информацию, относящаяся только к лицу пользователя. После этого данные подаются на вход остаточной сверточной нейросети ResNet-18, предназначенной для классификации изображений, а затем в полносвязный декодер, на выходе которого получают набор меток, соответствующий словам из набора команд, использованных в процессе обучения. Для демонстрации возможностей создатели технологии выбрали 32 слова, соответствующие наиболее распространенным командам управления приложениями на смартфоне, а также слова, обозначающие десять цифр. В процессе тренировки пользователи должны были повторять появляющиеся на экране слова и последовательности цифр как сидя за столом, так и в процессе ходьбы, для того, чтобы создать условия, приближенные к реальному мобильному использованию устройства. Обученную на данных одних пользователей модель использовали в процессе обучения других. Это позволило снизить время, необходимое на настройку алгоритма под конкретного человека. Разработчики протестировали устройство в нескольких реальных сценариях. Например, они использовали прототип EchoSpeech в качестве дополнительного устройства ввода при взаимодействии с программами на смартфоне и планшете, а также для управления музыкальным плеером, запуская и переключая треки, меняя уровень громкости с помощью шепота. Уровень ошибок при распознавании отдельных слов составлял в среднем около 4,5 процентов в командах и 6,1 процента в непрерывных последовательностях из 3-6 цифр. Эти показатели сравнимы со значениями неверно понятых слов в общении между людьми. Помимо проводной версии устройства, которую для удобства использовали в большинстве тестов, была также создана беспроводная версия устройства, передающая данные на смартфон через модуль Bluetooth с низким энергопотреблением. EchoSpeech позволяет распознавать речь по движениям губ, однако ученые уже разрабатывают технологию нейроинтерфейса, которая позволит синтезировать речь непосредственно по данным активности головного мозга.