Американские инженеры создали наушники с функцией распознавания выражения лица. На каждом наушнике есть камера, которая снимает боковую часть лица. Совмещая эти кадры алгоритм машинного обучения восстанавливает модель лица с высокой точностью, а также может распознавать некоторые слова без звука. Статья о разработке будет представлена на конференции UIST 2020.
Распознавание мимики лица используется не только для исследований, но и в повседневных пользовательских задачах. К примеру, в iOS можно использовать аватары Animoji, которые выглядят как персонажи мультфильмов и точно повторяют мимику пользователя. А NVIDIA недавно предложила передавать во время видеозвонков не видеопоток, а лишь карту ключевых точек лица, чтобы затем анимировать фотографию собеседника с ее помощью.
Современные алгоритмы могут весьма точно создавать карту ключевых точек в реальном времени, причем даже на смартфонах. Но для этого алгоритму необходима видеокамера, а значит, в случае со все тем же смартфоном, устройство нужно постоянно держать в руках перед собой, что далеко не всегда удобно. Инженеры под руководством Чэна Чжана (Cheng Zhang) из Корнеллского университета придумали необычный и удобный метод создания карт ключевых точек лица в реальном времени — с помощью наушников с камерами.
Инженеры создали два прототипа наушников: накладные наушники и раздельные наушники-вкладыши. Основная разница в них заключается в модулях камеры и расстоянии от кожи (1,5 сантиметра для вкладышей и 2,5 сантиметра для накладных). Камеры в них расположены таким образом, чтобы снимать боковую часть лица от рта до глаз. В текущем виде прототип пересылает данные по проводу сначала на Raspberry Pi, а затем на мощный компьютер для обработки.
Кадры с обеих камер сначала подвергаются предварительной обработке, во время которой с изображения отрезается вся область вне лица, затем оно бинаризуется и фильтруется, чтобы получить контур лица. После этого кадры с обеих сторон лица подаются в сверточную нейросеть ResNet-18, а затем полученный на ее выходе вектор подается на полносвязную регрессионную нейросеть, которая выдает два набора ключевых точек лица (для двух половин лица). На последнем этапе карты точек соединяются и получается карта всего лица с 42 точками.
Разработчики обучили алгоритм на «сырых» кадрах с двух камер в наушниках и размеченных кадров, снятых на камеру перед лицами людей. В результате алгоритм научился выдавать достаточно точные карты лица по двум боковым фотографиям. Среднеквадратическая ошибка определения местоположения по всем точкам составляет 0,77 и 0,74 миллиметра для вкладышей и накладных наушников соответственно, а для 20 главных точек она составляет 1,43 и 1,39 миллиметра соответственно. Также они создали отдельную модель для восстановления карт точек лица в маске со сопоставимой точностью.
В качестве примера авторы научили программу для смартфона отправлять стикеры с определенными эмоциями, считываемыми наушниками, а также переключать песни по беззвучным голосовым командам.
Недавно другая группа инженеров научила обычные беспроводные наушники распознавать жесты пальцем по коже в области уха. Метод использует микрофон, поэтому потенциально его можно использовать со многими моделями наушников без модификации.
Григорий Копиев
При начале применения до 70 лет
Алекса Байзер (Alexa Beiser) из Бостонского университета провела с коллегами лонгитюдное исследование и выяснила, что использование слухового аппарата при возрастной тугоухости в возрасте до 70 лет связано с существенным снижением риска развития деменции. В работе использовали данные почти трех тысяч участников Фреймингемского исследования (FHS), включенных в возрасте от 60 лет (в среднем 68,9 года; 59 процентов — женщины), без деменции на исходном уровне. Тугоухость определяли методом тоновой аудиометрии по частотно усредненному порогу слуха в 26 децибел. Связь этого состояния и использования слухового аппарата с риском деменции от всех причин оценивали с помощью коксовских регрессионных моделей. Результаты опубликованы в журнале JAMA Neurology.