Инженеры из двух американских, канадского и китайского университетов разработали ожерелье SpeeChin, распознающее 54 команды на английском и 44 на китайском без звука. Оно снимает шею и лицо говорящего из-под подбородка на инфракрасную камеру, потом обрабатывает изображения и определяет команду. Разработчики проверили SpeeChin на 20 пользователях, и ожерелье распознавало безмолвные команды на английском со средней точностью 90,5 процента, а на китайском — 91,6 процента. Результаты были опубликованы в Proceedings of the Association of Computing Machinery on Interactive, Mobile, Wearable and Ubiquitous Technologies.
Почти на всех современных смартфонах есть голосовые помощники, которые распознают и выполняют команды пользователя. Хотя за последнее время они научились это делать довольно точно, речевой ввод подходит не для любой ситуации. Например, использовать его в общественных или просто людных местах может быть некомфортно.
Для таких ситуаций инженеры разрабатывают альтернативные способы управления гаджетами. Например, умные очки J!ns Meme трансформируют в команды для смартфона прикосновения и потирания носа пальцами. А китайское приложение для смартфона распознает беззвучную речь по движениям губ и превращает ее в действия на устройстве.
Чжан Жуйдун (Ruidong Zhang) и его коллеги из Корнеллского университета, а также Калифорнийского университета, Чжецзянского университета и Университета Макгила разработали ожерелье SpeeChin, распознающее 54 беззвучных команды на английском и 44 на китайском. С помощью инфракрасной камеры оно снимает шею и лицо из-под подбородка. Затем изображения проходят предварительную обработку, после чего сверточная и рекуррентная нейросети распознают по ним речь.
Сверточные нейросети хорошо справляются с распознаванием изображений, звуков и другими подобными задачами. В них разные слои нейронов связаны через операцию свертки, в ходе которой используется ограниченная матрица весов небольшого размера, двигающаяся по предыдущему слою. Это позволяет наращивать большое число слоев без слишком больших вычислительных затрат. Но когда речь идет о последовательных данных переменной длины, у рекуррентных нейросетей есть свои преимущества. У них есть память и они способны работать с контекстом в длинных предложениях.
Чтобы проверить, как работает SpeeChin, Чжан Жуйдун и его коллеги провели два исследования с участием 20 пользователей. Первые десять отдавали беззвучные команды на английском, а вторые — на китайском. Например, «ответить», «позвонить», «камера», «ОК Google» или «WeChat». В это время камера фиксировала движения лица из-под подбородка. Камера была подключена к одноплатному компьютеру Raspberry Pi, а он — к монитору и кнопке управления, позволяющей запустить, поставить на паузу и остановить процесс сбора данных.
Результаты показали, что ожерелье распознает команды на английском со средней точностью 90,5 процента, а на китайском — 91,6 процента. Правда, когда пользователи двигались, точность определения команд была значительно ниже — 72,3 процента для английских и 65,5 процента для китайских — и резко менялась в зависимости от участника. У SpeeChin есть и другие ограничения. Например, в ярком солнечном свете на улице камере может быть сложно сегментировать человеческую кожу от фона. Еще ее обзору могут помешать длинные волосы или одежда. К тому же, у участников исследования английский не был родным языком, что тоже могло повлиять на результаты.
Считывать беззвучную речь позволяют не только устройства с камерами. Ранее мы писали про нейромышечную гарнитуру AlterEgo, которая использует наушники с костной проводимостью и четыре электрода.
Они распознают слова с 95-процентной точностью с помощью нейросети
Американские инженеры разработали очки, способные распознавать речь по движению губ пользователя. Для этого в оправу очков встроены два миниатюрных эхолокатора, которые получают информацию о малейших движениях губ и кожи лица, а алгоритм машинного обучения предсказывает произнесенные слова и команды почти с человеческой точностью. Доклад по результатам работы представлен на конференции CHI’23.