Компания Voxon, разработавшая объемный дисплей, научила его работать вместе с контроллером Leap Motion, отслеживающим движение рук. Благодаря этому пользователь может с помощью жестов двигать виртуальные предметы, парящие перед ним.
Существует множество разных подходов к созданию дисплея для объемных изображений. Упрощенно их можно разделить на две категории: плоские дисплеи с объемным виртуальным пространством, «утопленным» внутрь, и дисплеи, в которых объемное изображение парит в воздухе — как, например, в «Звездных войнах». Первая категория в том или ином виде, в основном на базе щелевого или лентикулярного растра, уже применяется на практике, причем довольно давно. Например, в 2011 году Nintendo начала выпуск портативной консоли 3DS с 3D-экраном, а сейчас существует серийный экран Looking Glass, устроенный похожим образом, но имеющий гораздо более высокое качество изображения.
Дисплеи с изображением, парящим в воздухе, гораздо более сложны в создании, и пока в них нет единого подхода, поэтому инженеры применяют самые разные принципы работы, например, есть дисплеи на базе падающих частиц или тумана, подсвечивающихся проектором, светящихся дронов, выполняющих роль вокселей дисплея и даже лазеров, ионизирующих небольшие пространства в воздухе. В дисплее Voxon VX1 используется иной принцип работы: в нем есть проектор и подвижная пластина, рассеивающая свет от проектора в стороны. Пластина поочередно двигается вверх и вниз, а проектор выводит в каждый момент времени срез 3D-объекта, соответсвующий положению пластины. Благодаря тому, что движение происходит с частотой примерно 30 циклов в секунду, человеческий глаз воспринимает множество срезов как единый светящийся объект и почти не замечает саму пластину. Лучше всего принцип работы виден на прототипах, в которых движение пластины было более медленным.
Недавно инженеры Voxon научили дисплей работать с инфракрасным контроллером Leap Motion, который в реальном времени сканирует пространство над собой и создает 3D-модель руки, которую можно использовать для управления интерфейсом и других применений. Разработчики создали демо-приложение, в котором дисплей дублирует уменьшенные копии рук пользователя, а также другие объекты, которые можно хватать, подбрасывать или перекладывать из одной руки в другую:
Рабочая зона дисплея составляет 18 на 18 на 8 сантиметров, разрешение 1000 на 1000 на 200 пикселей, а частота 30 «кадров» в секунду (циклов подъема и опускания пластины). Стоимость устройства составляет 9800 долларов.
Контроллер Leap Motion уже использовали для управления парящими в воздухе объектами: в середине 2020 года инженеры из разработавшей его компании Ultraleap показали стенд, в котором пользователь управляет движением шарика, подвешенного в воздухе благодаря акустической левитации. Кстати, акустическую левитацию тоже используют для создания прототипов объемных дисплеев с «парящим в воздухе» изображением, причем в некоторых прототипах даже есть тактильный отклик.
Григорий Копиев
Они распознают слова с 95-процентной точностью с помощью нейросети
Американские инженеры разработали очки, способные распознавать речь по движению губ пользователя. Для этого в оправу очков встроены два миниатюрных эхолокатора, которые получают информацию о малейших движениях губ и кожи лица, а алгоритм машинного обучения предсказывает произнесенные слова и команды почти с человеческой точностью. Доклад по результатам работы представлен на конференции CHI’23. Системы распознавания речи на основе мимики человека имеют большой потенциал практического применения. Они могут использоваться не только людьми с нарушениями речи, но и в тех случаях, когда говорить вслух становится невозможно, например, из-за сильного окружающего шума или в социально неприемлемых ситуациях. Многие существующие технологии распознавания речи по мимике используют в качестве входных данных видеоизображение. Однако для этого необходимо, чтобы перед лицом пользователя постоянно находилась видеокамера, что может быть не всегда удобно и безопасно. Кроме того, в этом случае эффективность распознавания зависит от условий освещения. Инженеры из Корнельского университета под руководством Чэня Чжана (Cheng Zhang) решили применить вместо видеокамер эхолокацию. Они создали технологию EchoSpeech, которая позволяет бесконтактным образом с помощью ультразвуковых волн отслеживать небольшие движения губ и кожи лица во время шепота. Разработанный прототип устройства представляет собой обычные очки, в нижней части оправы которых с одной стороны расположена пара звуковых динамиков, которые излучают непрерывные частотно-модулированные ультразвуковые сигналы. Отраженные от различных участков кожи лица и губ сигналы затем попадают на установленную с противоположной стороны очков пару микрофонов. Для того чтобы сигналы от каждого из двух динамиков можно было различить, частоты излучаемых сигналов отличаются. Множество отраженных звуковых сигналов образуют профиль эха — последовательность изменяющихся во времени кадров, которая содержит информацию о расстоянии до окружающих поверхностей, от которых отражается звук. Из этих данных отфильтровываются шумы и паразитные сигналы от фоновых объектов окружения, находящихся на удалении, чтобы выделить информацию, относящаяся только к лицу пользователя. После этого данные подаются на вход остаточной сверточной нейросети ResNet-18, предназначенной для классификации изображений, а затем в полносвязный декодер, на выходе которого получают набор меток, соответствующий словам из набора команд, использованных в процессе обучения. Для демонстрации возможностей создатели технологии выбрали 32 слова, соответствующие наиболее распространенным командам управления приложениями на смартфоне, а также слова, обозначающие десять цифр. В процессе тренировки пользователи должны были повторять появляющиеся на экране слова и последовательности цифр как сидя за столом, так и в процессе ходьбы, для того, чтобы создать условия, приближенные к реальному мобильному использованию устройства. Обученную на данных одних пользователей модель использовали в процессе обучения других. Это позволило снизить время, необходимое на настройку алгоритма под конкретного человека. Разработчики протестировали устройство в нескольких реальных сценариях. Например, они использовали прототип EchoSpeech в качестве дополнительного устройства ввода при взаимодействии с программами на смартфоне и планшете, а также для управления музыкальным плеером, запуская и переключая треки, меняя уровень громкости с помощью шепота. Уровень ошибок при распознавании отдельных слов составлял в среднем около 4,5 процентов в командах и 6,1 процента в непрерывных последовательностях из 3-6 цифр. Эти показатели сравнимы со значениями неверно понятых слов в общении между людьми. Помимо проводной версии устройства, которую для удобства использовали в большинстве тестов, была также создана беспроводная версия устройства, передающая данные на смартфон через модуль Bluetooth с низким энергопотреблением. EchoSpeech позволяет распознавать речь по движениям губ, однако ученые уже разрабатывают технологию нейроинтерфейса, которая позволит синтезировать речь непосредственно по данным активности головного мозга.