На краудфандинговой платформе Indiegogo появился проект экшн-камеры Revl Arc, которая оснащена системой цифровой стабилизации видео и электронным стабилизатором относительно горизонта. Подробнее об устройстве можно прочитать на странице проекта.
В водонепроницаемом корпусе Revl Arc установлен электростабилизатор, отвечающий за горизонтальную ориентацию камеры, сама камера, микрофон, набор датчиков и модуль беспроводного подключения по Wi-Fi и Bluetooth. Встроенные датчики позволяют камере определять высоту, направление, и ускорение. При съемке видео гаджет на лету учитывает показания датчиков и убирает тряску из видеоряда, обрезая края кадра. Камера работает от одного сменного аккумулятора полтора часа и позволяет записывать видео в трех режимах: 4K/30FPS, 1080p/120FPS , 720p/240FPS.
Создатели Revl Arc особо отмечают электрический стабилизатор относительно линии горизонта — по их словам, такая конструкция позволяет снимать сцены, для которых не подойдут другие экшн-камеры. Кроме гибридной стабилизации Revl Arc разработчики также предоставляют в комплекте с камерой программное обеспечение, которое самостоятельно выберет наиболее интересные моменты из записанного видео и скомпонует их в готовый клип. Ранее подобный концепт был реализован в экшн-камере Graava, которая самостоятельно определяет интересные моменты из видео опираясь на показания датчиков и может самостоятельно подобрать музыку к окончательной версии клипа.
На странице проекта разработчики позиционируют Revl Arc как конкурент GoPro, которая при отдельной покупке водонепроницаемого корпуса и стабилизатора может обойтись дороже. При заказе через Indiegogo Revl Arc обойдется в 399 долларов, отправка готовых устройств запланирована на декарь 2016 года.
Они распознают слова с 95-процентной точностью с помощью нейросети
Американские инженеры разработали очки, способные распознавать речь по движению губ пользователя. Для этого в оправу очков встроены два миниатюрных эхолокатора, которые получают информацию о малейших движениях губ и кожи лица, а алгоритм машинного обучения предсказывает произнесенные слова и команды почти с человеческой точностью. Доклад по результатам работы представлен на конференции CHI’23. Системы распознавания речи на основе мимики человека имеют большой потенциал практического применения. Они могут использоваться не только людьми с нарушениями речи, но и в тех случаях, когда говорить вслух становится невозможно, например, из-за сильного окружающего шума или в социально неприемлемых ситуациях. Многие существующие технологии распознавания речи по мимике используют в качестве входных данных видеоизображение. Однако для этого необходимо, чтобы перед лицом пользователя постоянно находилась видеокамера, что может быть не всегда удобно и безопасно. Кроме того, в этом случае эффективность распознавания зависит от условий освещения. Инженеры из Корнельского университета под руководством Чэня Чжана (Cheng Zhang) решили применить вместо видеокамер эхолокацию. Они создали технологию EchoSpeech, которая позволяет бесконтактным образом с помощью ультразвуковых волн отслеживать небольшие движения губ и кожи лица во время шепота. Разработанный прототип устройства представляет собой обычные очки, в нижней части оправы которых с одной стороны расположена пара звуковых динамиков, которые излучают непрерывные частотно-модулированные ультразвуковые сигналы. Отраженные от различных участков кожи лица и губ сигналы затем попадают на установленную с противоположной стороны очков пару микрофонов. Для того чтобы сигналы от каждого из двух динамиков можно было различить, частоты излучаемых сигналов отличаются. Множество отраженных звуковых сигналов образуют профиль эха — последовательность изменяющихся во времени кадров, которая содержит информацию о расстоянии до окружающих поверхностей, от которых отражается звук. Из этих данных отфильтровываются шумы и паразитные сигналы от фоновых объектов окружения, находящихся на удалении, чтобы выделить информацию, относящаяся только к лицу пользователя. После этого данные подаются на вход остаточной сверточной нейросети ResNet-18, предназначенной для классификации изображений, а затем в полносвязный декодер, на выходе которого получают набор меток, соответствующий словам из набора команд, использованных в процессе обучения. Для демонстрации возможностей создатели технологии выбрали 32 слова, соответствующие наиболее распространенным командам управления приложениями на смартфоне, а также слова, обозначающие десять цифр. В процессе тренировки пользователи должны были повторять появляющиеся на экране слова и последовательности цифр как сидя за столом, так и в процессе ходьбы, для того, чтобы создать условия, приближенные к реальному мобильному использованию устройства. Обученную на данных одних пользователей модель использовали в процессе обучения других. Это позволило снизить время, необходимое на настройку алгоритма под конкретного человека. Разработчики протестировали устройство в нескольких реальных сценариях. Например, они использовали прототип EchoSpeech в качестве дополнительного устройства ввода при взаимодействии с программами на смартфоне и планшете, а также для управления музыкальным плеером, запуская и переключая треки, меняя уровень громкости с помощью шепота. Уровень ошибок при распознавании отдельных слов составлял в среднем около 4,5 процентов в командах и 6,1 процента в непрерывных последовательностях из 3-6 цифр. Эти показатели сравнимы со значениями неверно понятых слов в общении между людьми. Помимо проводной версии устройства, которую для удобства использовали в большинстве тестов, была также создана беспроводная версия устройства, передающая данные на смартфон через модуль Bluetooth с низким энергопотреблением. EchoSpeech позволяет распознавать речь по движениям губ, однако ученые уже разрабатывают технологию нейроинтерфейса, которая позволит синтезировать речь непосредственно по данным активности головного мозга.