Инженеры из Германии и Канады создали шлем виртуальной реальности, передающий ощущения от взаимодействия с виртуальным миром с помощью обдува, обогрева и обрызгивания лица, а также благодаря прикосновениям к нему. Программное обеспечение шлема синхронизирует эти воздействия с событиями в виртуальном пространстве, благодаря чему уровень погружения пользователя увеличивается, рассказывают авторы статьи, которая будет представлена на конференции CHI 2020.
Шлемы виртуальной значительно увеличивают погружение в игру или другое приложение благодаря тому, что визуальные и звуковые стимулы синхронизируются с движениями головы. Однако исследования показывают, что невизуальные стимулы также играют важную роль в погружении и влияют на эффективность при выполнении заданий.
Основное направление исследований в области невизуальной стимуляции в виртуальной реальности касается физического контакта рук при взаимодействии с объектами. Чаще всего исследователи и инженеры используют перчатки, которые сопротивляются движению пальцев и тем самым имитируют жесткие предметы. В некоторых разработках стимуляции подвергаются одновременно многие части тела или же лицо, как одно из самых насыщенных рецепторами разных типов.
Инженеры под руководством Эрнста Круифа (Ernst Kruijff) из Университета прикладных наук Бонн-Рейн-Зиг создали VR-шлем, способный воздействовать на пользователя разными стимулами, но при этом не требующий обустраивать вокруг него специальное пространство с множеством устройств. За основу они взяли популярный шлем Oculus Rift, а на него установили манипулятор с четырьмя степенями свободы. Он крепится к верхней части шлема и свисает до уровня шеи. На манипуляторе установлены по паре сервомоторов и линейных актуаторов, сопло для разбрызгивания воды, нагреватель, вентилятор и наконечник, который может касаться лица.
Манипулятор на шлеме может работать в двух режимах: центрированном относительно пользователя, то есть сохранять свою позицию относительно лица, или относительно виртуального мира, то есть поворачиваться в сторону, противоположную повороту головы. Инженеры разработали виртуальную среду, в которой пользователь гуляет по лесу, а различные эффекты синхронизируются с элементами на манипуляторе: ветер симулируется с помощью вентилятора, прикосновение листьев имитируется мягким наконечником, скользящим по лицу, за имитацию солнечного света отвечает нагреватель перед лицом, а ветер также может дополняться распылением мелких капель, имитирующих туман или влажную среду.
Авторы провели два исследования на добровольцах, чтобы проверить свою гипотезу о том, что их устройство увеличивает ощущение погружения в виртуальный мир и улучшает общее восприятие VR-системы. В первом исследовании они проверяли, могут ли пользователи корректно воспринимать направление ветра. В исследовании принимало участие 16 добровольцев, а также использовались различные режимы работы шлема. В результате выяснилось, что ошибка определения направления ветра составляет 7,25 градуса в режиме со свободно поворачиваемой головой и изменяемым направлением воздушного потока.
Во втором исследовании авторы проверяли общее влияние всех стимулов на погружение и эмоциональный отклик пользователей. Во время исследования у добровольцев было два сеанса ходьбы по виртуальному тропическому лесу по три минуты с 16 различными воздействиями за это время. Разница между сеансами заключалась в том, использовались ли стимулы от манипулятора. Результаты показали, что ключевые метрики, такие как ощущение погружения, правдоподобность и удовольствие, оказались выше в случае с дополнительными стимулами.
Исследователи признают, что в текущем виде у шлема неоптимальная конструкция, потому он имеет достаточно большую массу, а его центр тяжести сильно смещен вперед. Тем не менее, они заявляют, что добровольцы не называли это критичным. В качестве решения они предлагают закреплять манипулятор не на самом шлеме, а на теле.
Кроме механических воздействий на лицо и тело инженеры также предлагают использовать электрические стимулы. Например, существуют прототипы устройств, которые стимулируют вестибулярный аппарат и создают у пользователя ощущение наклона.
Григорий Копиев
Они распознают слова с 95-процентной точностью с помощью нейросети
Американские инженеры разработали очки, способные распознавать речь по движению губ пользователя. Для этого в оправу очков встроены два миниатюрных эхолокатора, которые получают информацию о малейших движениях губ и кожи лица, а алгоритм машинного обучения предсказывает произнесенные слова и команды почти с человеческой точностью. Доклад по результатам работы представлен на конференции CHI’23. Системы распознавания речи на основе мимики человека имеют большой потенциал практического применения. Они могут использоваться не только людьми с нарушениями речи, но и в тех случаях, когда говорить вслух становится невозможно, например, из-за сильного окружающего шума или в социально неприемлемых ситуациях. Многие существующие технологии распознавания речи по мимике используют в качестве входных данных видеоизображение. Однако для этого необходимо, чтобы перед лицом пользователя постоянно находилась видеокамера, что может быть не всегда удобно и безопасно. Кроме того, в этом случае эффективность распознавания зависит от условий освещения. Инженеры из Корнельского университета под руководством Чэня Чжана (Cheng Zhang) решили применить вместо видеокамер эхолокацию. Они создали технологию EchoSpeech, которая позволяет бесконтактным образом с помощью ультразвуковых волн отслеживать небольшие движения губ и кожи лица во время шепота. Разработанный прототип устройства представляет собой обычные очки, в нижней части оправы которых с одной стороны расположена пара звуковых динамиков, которые излучают непрерывные частотно-модулированные ультразвуковые сигналы. Отраженные от различных участков кожи лица и губ сигналы затем попадают на установленную с противоположной стороны очков пару микрофонов. Для того чтобы сигналы от каждого из двух динамиков можно было различить, частоты излучаемых сигналов отличаются. Множество отраженных звуковых сигналов образуют профиль эха — последовательность изменяющихся во времени кадров, которая содержит информацию о расстоянии до окружающих поверхностей, от которых отражается звук. Из этих данных отфильтровываются шумы и паразитные сигналы от фоновых объектов окружения, находящихся на удалении, чтобы выделить информацию, относящаяся только к лицу пользователя. После этого данные подаются на вход остаточной сверточной нейросети ResNet-18, предназначенной для классификации изображений, а затем в полносвязный декодер, на выходе которого получают набор меток, соответствующий словам из набора команд, использованных в процессе обучения. Для демонстрации возможностей создатели технологии выбрали 32 слова, соответствующие наиболее распространенным командам управления приложениями на смартфоне, а также слова, обозначающие десять цифр. В процессе тренировки пользователи должны были повторять появляющиеся на экране слова и последовательности цифр как сидя за столом, так и в процессе ходьбы, для того, чтобы создать условия, приближенные к реальному мобильному использованию устройства. Обученную на данных одних пользователей модель использовали в процессе обучения других. Это позволило снизить время, необходимое на настройку алгоритма под конкретного человека. Разработчики протестировали устройство в нескольких реальных сценариях. Например, они использовали прототип EchoSpeech в качестве дополнительного устройства ввода при взаимодействии с программами на смартфоне и планшете, а также для управления музыкальным плеером, запуская и переключая треки, меняя уровень громкости с помощью шепота. Уровень ошибок при распознавании отдельных слов составлял в среднем около 4,5 процентов в командах и 6,1 процента в непрерывных последовательностях из 3-6 цифр. Эти показатели сравнимы со значениями неверно понятых слов в общении между людьми. Помимо проводной версии устройства, которую для удобства использовали в большинстве тестов, была также создана беспроводная версия устройства, передающая данные на смартфон через модуль Bluetooth с низким энергопотреблением. EchoSpeech позволяет распознавать речь по движениям губ, однако ученые уже разрабатывают технологию нейроинтерфейса, которая позволит синтезировать речь непосредственно по данным активности головного мозга.