Голосовой помощник в смартфоне научили распознавать беззвучную речь

Григорий Копиев

Китайские разработчики создали приложение для смартфона, распознающее беззвучную речь по движениям губ пользователя и превращающее команды в действия на устройстве, к примеру, оно может запускать другие приложения. В отличие от обычных голосовых помощников, приложение можно использовать в общественных местах, не мешая другим людям, рассказывают разработчики в статье, представленной на конференции UIST 2018.

Практически все современные смартфоны оборудованы голосовыми помощниками, распознающими и выполняющими команды пользователя. За последние годы разработчикам удалось довести уровень точности распознавания речи алгоритмами до уровня специалистов по набору текста, а также научить помощники поддерживать диалог, запоминая контекст предыдущих команд. Тем не менее, исследования показывают, что большинство людей не используют голосовые помощники в общественных местах, поскольку при этом они чувствуют себя некомфортно.

Юаньчунь Ши (Yuanchun Shi) и его коллеги из Университета Цинхуа разработали голосовой помощник для смартфонов, умеющий распознавать речь по движениям губ, даже если пользователь не издает звуков.

Во время работы приложение определяет лицо в кадре с камеры смартфона и после этого начинает отслеживать положение 20 контрольных точек, которые достаточно точно описывают форму губ. Кроме того, он определяет степень открытости рта, что позволяет отслеживать моменты начала и конца команды. После этого данные передаются на другой алгоритм на основе сверточной нейросети, который занимается непосредственно распознаванием речи по движениям губ. Стоит отметить, что пока разработчики реализовали распознавание не на самом смартфоне, а на дополнительном и достаточно мощном компьютере.

Авторы приложения разработали для него 44 команды, часть из которых относится ко всей системе, к примеру, включение Wi-Fi, часть к конкретным приложениям, а еще одна часть позволяет взаимодействовать с любым приложением с помощью системных служб, например, выделять текст. При этом приложение понимает контекст команд, к примеру, если система отобразила всплывающее окно с сообщением, то пользователь сможет быстро ответить на него.

Разработчики проверили точность распознавания, обучив систему на примерах речи 21 человека, и проверив на речи еще одного. Средняя точность распознавания оказалась равной 95,5 процента. Кроме того, авторы проверили, насколько их приложение удобнее голосового ввода в общественных местах, и провели эксперимент в пекинском метро. Во время эксперимента пять пар добровольцев оценивали конфиденциальность и комфорт использования приложения, при этом один из них выполнял команды, а второй выступал в роли пассажира. Испытания показали, что в обоих случаях люди считают беззвучные команды более комфортными и конфиденциальными, чем голосовые команды, причем окружающие люди чувствовали себя более комфортно, чем сам пользователь.

Разработкой социально приемлемых способов взаимодействия со смартфонами и другими устройствами занимается достаточно много исследователей, которые используют для этого разные подходы. Например, инженеры из Массачусетского технологического института создали закрепляемую на шее гарнитуру, которая регистрирует изменения сигналов нейромышечной активности, когда пользователь говорит, не открывая рта. А другая группа инженеров создала умные очки, которые отслеживают жесты пальцами возле носа и превращают их в команды для смартфона.

Григорий Копиев