Наушники считали выражение лица по форме щек

Григорий Копиев

Американские инженеры создали наушники с функцией распознавания выражения лица. На каждом наушнике есть камера, которая снимает боковую часть лица. Совмещая эти кадры алгоритм машинного обучения восстанавливает модель лица с высокой точностью, а также может распознавать некоторые слова без звука. Статья о разработке будет представлена на конференции UIST 2020.

Распознавание мимики лица используется не только для исследований, но и в повседневных пользовательских задачах. К примеру, в iOS можно использовать аватары Animoji, которые выглядят как персонажи мультфильмов и точно повторяют мимику пользователя. А NVIDIA недавно предложила передавать во время видеозвонков не видеопоток, а лишь карту ключевых точек лица, чтобы затем анимировать фотографию собеседника с ее помощью.

Современные алгоритмы могут весьма точно создавать карту ключевых точек в реальном времени, причем даже на смартфонах. Но для этого алгоритму необходима видеокамера, а значит, в случае со все тем же смартфоном, устройство нужно постоянно держать в руках перед собой, что далеко не всегда удобно. Инженеры под руководством Чэна Чжана (Cheng Zhang) из Корнеллского университета придумали необычный и удобный метод создания карт ключевых точек лица в реальном времени — с помощью наушников с камерами.

Инженеры создали два прототипа наушников: накладные наушники и раздельные наушники-вкладыши. Основная разница в них заключается в модулях камеры и расстоянии от кожи (1,5 сантиметра для вкладышей и 2,5 сантиметра для накладных). Камеры в них расположены таким образом, чтобы снимать боковую часть лица от рта до глаз. В текущем виде прототип пересылает данные по проводу сначала на Raspberry Pi, а затем на мощный компьютер для обработки.

Кадры с обеих камер сначала подвергаются предварительной обработке, во время которой с изображения отрезается вся область вне лица, затем оно бинаризуется и фильтруется, чтобы получить контур лица. После этого кадры с обеих сторон лица подаются в сверточную нейросеть ResNet-18, а затем полученный на ее выходе вектор подается на полносвязную регрессионную нейросеть, которая выдает два набора ключевых точек лица (для двух половин лица). На последнем этапе карты точек соединяются и получается карта всего лица с 42 точками.

Разработчики обучили алгоритм на «сырых» кадрах с двух камер в наушниках и размеченных кадров, снятых на камеру перед лицами людей. В результате алгоритм научился выдавать достаточно точные карты лица по двум боковым фотографиям. Среднеквадратическая ошибка определения местоположения по всем точкам составляет 0,77 и 0,74 миллиметра для вкладышей и накладных наушников соответственно, а для 20 главных точек она составляет 1,43 и 1,39 миллиметра соответственно. Также они создали отдельную модель для восстановления карт точек лица в маске со сопоставимой точностью.

В качестве примера авторы научили программу для смартфона отправлять стикеры с определенными эмоциями, считываемыми наушниками, а также переключать песни по беззвучным голосовым командам.

Недавно другая группа инженеров научила обычные беспроводные наушники распознавать жесты пальцем по коже в области уха. Метод использует микрофон, поэтому потенциально его можно использовать со многими моделями наушников без модификации.

Григорий Копиев