Исследователи нашли тысячу слов для активации умных колонок

Немецкие исследователи предложили метод и создали аппаратное обеспечение, которые позволили им определить более тысячи слов, в ответ на которые активируются умные колонки разных производителей. Авторы опубликовали объемное описание работы с примерами на своем сайте, а в ближайшее время также планируют опубликовать статью и собранный датасет из слов и фраз.

В умных колонках почти всех производителей используется похожая модель безопасности данных. Они постоянно слушают речь вокруг и пытаются распознать в ней фразу активации: «Алиса», «Окей, Google», «Привет, Siri» или другую. Эта часть работы происходит полностью локально, поэтому при идеальной работе умные колонки передают на сервера компании для распознавания только команды хозяина. Однако алгоритмы распознавания работают не идеально и нередко принимают за фразу активации другое слово, которое пользователь, например, сказал в конфиденциальном разговоре по телефону. В результате голосовой помощник отправляет на сервер отрезок речи начиная с этого слова, который может быть достаточно длинным. Вместе с тем, что часть записей анализируют компании-разработчики или даже сторонние подрядчики, эти ошибки вызывают довольно серьезную обеспокоенность среди специалистов, потому что из-за этого конфиденциальные разговоры пользователей могут услышать сторонние люди.

Исследователи под руководством Торстена Хольца (Thorsten Holz) из Рурского университета в Бохуме разработали метод, позволяющий в почти автоматическом режиме проверять голосовые помощники на подобные ошибки и составлять список слов, которые их алгоритмы интерпретируют неверно. Они собрали набор аудиозаписей с речью из фильмов, сериалов и выпусков новостей, общей сложностью более 180 часов только на немецком языке, хотя помимо него они испытывали колонки, говорящие на английском и китайском. Всего авторы испытали 11 устройств: семь разных моделей умных колонок по одному экземпляру и четыре экземпляра Amazon Echo Dot, потому что Alexa поддерживает четыре разных фразы активации (Alexa, Echo, Amazon и Computer).

Чтобы исследователям не пришлось контролировать вручную работу колонок на протяжении сотен часов аудиозаписей, они разработали метод автоматического анализа. Для этого они поставили на стол в лаборатории все 11 колонок, а также колонку, подключенную к компьютеру и проигрывающую фильмы и новости с него. У умных колонок есть светодиодная подсветка или экран, показывающий, что голосовой помощник услышал фразу активации и записывает команду. К этому элементу каждой колонки исследователи подключили датчик освещения, чтобы активацию на определенный фрагмент аудиозаписи можно было регистрировать автоматически. Также система дублирует запись с помощью видеокамеры с микрофоном и анализирует сетевой трафик с колонок благодаря тому, что все они подключены к одной сети Wi-Fi. Чтобы эксперимент проходил без долгих ошибок, между разными аудиозаписями компьютер произносил команду с нормальными активационными фразами и отмечал реакцию колонок. Все это позволило создать систему, которая работала круглые сутки без физического присутствия авторов.

Авторы пока не опубликовали полный датасет с найденными фразами, которые алгоритмы воспринимают как свою фразу активации, но они отметили, что всего нашли более тысячи таких слов или фраз на трех языках, в том числе 272 на немецком. Некоторые из них к концу исследования уже не работали, потому что производители постоянно обновляют алгоритмы. Несмотря на то, что полный набор слов авторы не опубликовали, часть из них они раскрыли. Среди них есть как довольно похожие на оригинальные фразы, как в случае с «OK, cool» вместо «OK, Google», так и неожиданные варианты: «tobacco» вместо «Echo» или «unacceptable» вместо «Alexa». Также исследователи опубликовали на YouTube некоторые примеры, когда голосовые помощники срабатывали на фразы героев «Игры престолов» (1, 2) и «Американской семейки» (1, 2).

Инженеры-энтузиасты и небольшие компании создали проекты устройств, защищающих от случайных срабатываний. Одно из них посылает в микрофон колонки белый шум и выключает его при распознавании команды, а второе, в зависимости от версии, либо работает так же, либо нажимает на кнопку отключения микрофона колонки.

Григорий Копиев