Слабый шум заставил систему распознавания голоса услышать совсем другие слова

Исследователи научились создавать из записей речи новые записи, которые имеют едва заметные отличия в виде шума, но интерпретируются системами распознавания речи совершенно иначе. Такой метод можно использовать для атаки на голосовые помощники или же для защиты речи от распознавания компьютерами и смартфонами, говорится в препринте, опубликованном на arXiv.org. Примеры исходных и измененных записей, а также использованный набор данных доступны на сайте исследователей.

Многие современные системы распознавания речи основаны на нейросетях. При достаточно большом и правильно сформированном наборе тренировочных данных точность систем машинного обучения уже не уступает специалистам в какой-либо области — например, в распознавании устной речи или диагностике пневмонии. Но, помимо сложности тренировки, у таких алгоритмов есть еще один серьезный недостаток. Они могут быть уязвимы к состязательным примерам — данным, изменения в которых незаметны человеку, но сильно влияют на системы распознавания образов. К примеру, исследователи научились создавать реалистично выглядящие 3D-печатные модели черепах, которых нейросети принимают за винтовку, или очки с необычным узором для обмана систем распознавания лиц.

Николас Карлини (Nicholas Carlini) и Давид Вагнер (David Wagner) из Калифорнийского университета в Беркли использовали эту особенность для обмана систем распознавания речи, основанных на машинном обучении. Они предложили внедрять в аудиозаписи голоса небольшие изменения, которые полностью меняют содержание записи для систем распознавания. Для этого они добавляли нужную фразу в исходную запись и с помощью функции потерь и градиентного спуска за несколько минут приближали выходную запись к искомой.

Исследователи проверили созданные состязательные примеры на свободной реализации системы распознавания DeepSpeech, созданной специалистами из Mozilla. Тестирование показало, что такой метод имеет стопроцентную точность: во всех случаях DeepSpeech распознавала именно внедренную исследователями, а не исходную фразу. Авторы работы представили несколько примеров.

Здесь должно было быть видео, но что-то пошло не так.

Исходная запись с фразой «Without the dataset the article is useless», которую DeepSpeech распознает в исходном виде.

Здесь должно было быть видео, но что-то пошло не так.

Модифицированная запись той же фразы, которую система распознавания речи интерпретирует как «Okay Google browse to evil.com».

Исследователи опубликовали другие примеры на своем сайте. Они отмечают, что таким методом можно вставлять незаметные для людей сообщения в звуки, в которых изначально нет речи, а также защищать речь от считывания алгоритмами распознавания речи.

В прошлом году китайские исследователи предложили другой метод атаки на голосовые помощники. Они научились создавать неслышимые для людей команды, которые искажаются в микрофонах из-за их особенностей и превращаются в звук, который голосовой помощник воспринимает как команды.

Григорий Копиев