Функционирует при финансовой поддержке Федерального агентства по печати и массовым коммуникациям (Роспечать)

Микрофон беспроводных наушников превратил кожу головы в датчик жестов

Xuhai Xu et al. / CHI 2020

Инженеры из США и Китая создали прототип беспроводных наушников, которыми можно управлять жестами, прикасаясь или проводя пальцев по коже в области уха. Для распознавания жестов используются данные с микрофона, поэтому эту возможность можно добавлять в уже выпускаемые наушники с помощью программного обновления, отмечают авторы статьи, представленной на конференции CHI 2020.

В области человеко-компьютерного взаимодействия есть направление, в котором исследователи предлагают использовать тело человека в качестве сенсорной поверхности. Например, мы рассказывали об умных часах, распознающих прикосновения к коже руки, и умных очках, распознающих прикосновения к носу. Но, хотя сами по себе эти разработки могут быть достаточно удобными, они не выходят за рамки лабораторий, потому что требуют встраивать в устройства отдельные датчики.

Синь И (Xin Yi) из Университета Цинхуа вместе со своими коллегами решил создать метод распознавания жестов по коже, основанный на уже применяемом на практике аппаратном обеспечении — микрофонах в беспроводных наушниках. Они использовали серийные беспроводные наушники Samsung Gear IconX, подключенные по Bluetooth к ноутбуку для обработки данных.


При работающем алгоритме наушники постоянно передают звук с микрофона на компьютер для обработки. На первом этапе со звуком работает трехслойная полносвязная нейросеть, которая анализирует 180-миллисекундные отрезки звука и определяет, есть ли на них какой-либо жест. Если жест не обнаружен, этот отрезок отсекается, а если обнаружен, то он передается на другой алгоритм. Перед вторым этапом звук преобразуется в мел-спектрограмму, а затем передается сверточной нейросети DenseNet, предварительно обученной на датасете ImageNet, а затем дообученной на датасете авторов. Эта нейросеть работает в качестве классификатора, который выдает итоговый результат — тип совершенного пользователем жеста.

Изначально авторы придумали 27 жестов, задействующих разные области кожи в области ушей и типы взаимодействий с ней, например, прикосновения и проведение пальцем. После небольшого исследования на добровольцах они сократили список до восьми: шесть одинарных и двойных прикосновений, а также проведение пальцем по ушной раковине и за ухом. Разработчики выбрали их по тому, насколько удобными и социально приемлемыми они показались добровольцам, а также по тому, насколько четко они различимы на спектрограмме.

Разработчики проверили точность работы алгоритма на 18 пользователях, обучив наушники на их данных. Результаты показали, что точность классификации жестов составляет 95,3 процента. При этом кросс-валидация с исключением по одному (из датасета по-очереди убирают данные одного добровольца, проверяют работу алгоритма на нем и тем самым проверяют насколько хорошо модель будет работать с незнакомыми ей данными) показала точность 82,1 процента. Однако разработчики отмечают, что при реалистичном сценарии, в котором пользователя просят перед началом работы показать пять жестов, точность сразу вырастает до 90,1 процента.

В качестве применений авторы предложили использовать алгоритм так же, как сегодня применяются жесты в наушниках с сенсорной поверхностью или акселерометром: управление музыкой, звонками и уведомлениями.

В прошлом году японские и швейцарские инженеры создали носимое устройство, которое крепится на запястье и тыльную сторону кисти руки и распознает жесты пальцами другой руки по ней.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.