Стартап Surplex представил ботинки с датчиками, позволяющими отслеживать положение всего тела. Это позволяет в реальном времени создавать модель человека и использовать ее в VR-играх. Проект гаджета опубликован на Kickstarter и уже собрал требуемую для запуска сумму.
Отслеживание положения тела или его частей позволяет переносить модель игрока в виртуальную реальность, чтобы персонаж в точности повторял движения человека. Для этого используются разные подходы. Самый простой из них технически — датчики на каждую конечность. Собирая данные об их положении алгоритм может легко восстановить достаточно точную модель всего тела. Но закреплять несколько довольно больших датчиков на теле может быть некомфортно. Есть способы слежения вообще без каких-либо внешних устройств. Так, в серийном Oculus Quest 2 давно реализовано отслеживание полной модели кистей рук (с отслеживанием каждого пальца) только с помощью встроенных в шлем камер, а если дополнить систему камерами в контроллерах, то же самое можно делать для всего тела, правда, второй пример — это пока лишь исследовательских прототип. Наконец, есть и проекты, в которых модель тела восстанавливается по косвенной информации с инерциальных датчиков. В прошлом году мы рассказывали о наборе из двух датчиков, которого достаточно для воссоздания модели всей руки, включая пальцы.
Surplex применила похожий подход с созданием модели тела по косвенным данным, но дополнила инерциальные датчики (акселерометр и гироскоп) датчиками давления. В каждом ботинке под стелькой располагается по 240 датчиков давления. При любом наклоне тела и даже движении конечности распределение веса по стопе меняется. Ботинки совмещают карту распределения давления тела с данными от двух девятиосевых инерциальных датчиков и воссоздают по ним полную модель тела с руками, ногами, туловищем и головой.
В зависимости от версии, модель обновляется с частотой от 30 до 60 раз в секунду, а задержка составляет 30 миллисекунд. Точность отслеживания составляет 5 сантиметров. Данные с ботинок передаются по Wi-Fi на компьютер. Система поддерживает платформу SteamVR, совместимую со многими популярными шлемами, такими как Oqulus Quest, HTC Vive и Valve Index.
Стоимость ботинок составляет 169 долларов. Проект уже собрал необходимую сумму в 10 000 долларов на Kickstarter, ожидается, что поставки начнутся в декабре.
Помимо отслеживания тела в VR-шлемах применяется отслеживание взгляда. Одно из его применений — фовеальный рендеринг, при котором шлем тратит основные вычислительные ресурсы на область изображения в центре поля зрения человека и экономит их на областях по краям.
Григорий Копиев
Они распознают слова с 95-процентной точностью с помощью нейросети
Американские инженеры разработали очки, способные распознавать речь по движению губ пользователя. Для этого в оправу очков встроены два миниатюрных эхолокатора, которые получают информацию о малейших движениях губ и кожи лица, а алгоритм машинного обучения предсказывает произнесенные слова и команды почти с человеческой точностью. Доклад по результатам работы представлен на конференции CHI’23. Системы распознавания речи на основе мимики человека имеют большой потенциал практического применения. Они могут использоваться не только людьми с нарушениями речи, но и в тех случаях, когда говорить вслух становится невозможно, например, из-за сильного окружающего шума или в социально неприемлемых ситуациях. Многие существующие технологии распознавания речи по мимике используют в качестве входных данных видеоизображение. Однако для этого необходимо, чтобы перед лицом пользователя постоянно находилась видеокамера, что может быть не всегда удобно и безопасно. Кроме того, в этом случае эффективность распознавания зависит от условий освещения. Инженеры из Корнельского университета под руководством Чэня Чжана (Cheng Zhang) решили применить вместо видеокамер эхолокацию. Они создали технологию EchoSpeech, которая позволяет бесконтактным образом с помощью ультразвуковых волн отслеживать небольшие движения губ и кожи лица во время шепота. Разработанный прототип устройства представляет собой обычные очки, в нижней части оправы которых с одной стороны расположена пара звуковых динамиков, которые излучают непрерывные частотно-модулированные ультразвуковые сигналы. Отраженные от различных участков кожи лица и губ сигналы затем попадают на установленную с противоположной стороны очков пару микрофонов. Для того чтобы сигналы от каждого из двух динамиков можно было различить, частоты излучаемых сигналов отличаются. Множество отраженных звуковых сигналов образуют профиль эха — последовательность изменяющихся во времени кадров, которая содержит информацию о расстоянии до окружающих поверхностей, от которых отражается звук. Из этих данных отфильтровываются шумы и паразитные сигналы от фоновых объектов окружения, находящихся на удалении, чтобы выделить информацию, относящаяся только к лицу пользователя. После этого данные подаются на вход остаточной сверточной нейросети ResNet-18, предназначенной для классификации изображений, а затем в полносвязный декодер, на выходе которого получают набор меток, соответствующий словам из набора команд, использованных в процессе обучения. Для демонстрации возможностей создатели технологии выбрали 32 слова, соответствующие наиболее распространенным командам управления приложениями на смартфоне, а также слова, обозначающие десять цифр. В процессе тренировки пользователи должны были повторять появляющиеся на экране слова и последовательности цифр как сидя за столом, так и в процессе ходьбы, для того, чтобы создать условия, приближенные к реальному мобильному использованию устройства. Обученную на данных одних пользователей модель использовали в процессе обучения других. Это позволило снизить время, необходимое на настройку алгоритма под конкретного человека. Разработчики протестировали устройство в нескольких реальных сценариях. Например, они использовали прототип EchoSpeech в качестве дополнительного устройства ввода при взаимодействии с программами на смартфоне и планшете, а также для управления музыкальным плеером, запуская и переключая треки, меняя уровень громкости с помощью шепота. Уровень ошибок при распознавании отдельных слов составлял в среднем около 4,5 процентов в командах и 6,1 процента в непрерывных последовательностях из 3-6 цифр. Эти показатели сравнимы со значениями неверно понятых слов в общении между людьми. Помимо проводной версии устройства, которую для удобства использовали в большинстве тестов, была также создана беспроводная версия устройства, передающая данные на смартфон через модуль Bluetooth с низким энергопотреблением. EchoSpeech позволяет распознавать речь по движениям губ, однако ученые уже разрабатывают технологию нейроинтерфейса, которая позволит синтезировать речь непосредственно по данным активности головного мозга.