В конце июля 2019 года многие СМИ распространили новость о том, что устройства Apple подслушивают приватные разговоры людей с врачами и даже записывают их действия в постели, а затем эти записи вместе с метаданными попадают на прослушивание людям из сторонних компаний. Через неделю внимание к этой ситуации вынудило Apple приостановить программу оценки качества Siri. Разбираемся, так ли нова и исключительна эта ситуация, как забота о пользователях лишила их приватности и можно ли эту приватность сохранить, не лишая себя удобств, которые предоставляют нам современные технологии.
Для начала стоит разобраться в том, как работают голосовые помощники. Легче всего это сделать на примере умных колонок, в которых эта функция основная. Умные колонки слишком умны, чтобы напрасно тратить много вычислительных ресурсов на распознавание всех звуков вокруг. Поэтому эти устройства работают иначе — они действительно постоянно слушают происходящее вокруг, но ищут в этих звуках не все подряд, а лишь активационную фразу. В Siri это «Привет, Siri», в Google Assistant — «Окей, Google», а в помощнике Яндекса «Алисе» — «Алиса». Только если колонка услышала нужную фразу, она начинает отсылать дальнейшую речь пользователя на сервер для распознавания и смысловой обработки.
Такая схема работы обусловлена двумя факторами. Во-первых, качественно распознавать все слова одного языка — это технически сложная задача, а делать это на достаточно слабых с вычислительной точки зрения колонках еще сложнее. Если же колонке нужно следить лишь за двумя словами, алгоритм можно хорошо обучить распознавать разные акценты на самом устройстве, не отсылая данные на сервера компании.
И здесь возникает второй фактор. Активационная фраза — это своего рода инструмент, дающий пользователю чувство контроля за тем, что из его разговоров попадает на сервера компании-разработчика, а что остается только между ним и собеседником. Второй такой инструмент — кнопка выключения микрофона, которая обычно из тех же соображений на аппаратном уровне ограничивает доступ алгоритмов к микрофону. Во многом именно на доверии к этим инструментам основана популярность колонок, число которых, судя по данным исследований, перевалит за 200 миллионов проданных устройств к концу года.
Шум в западных СМИ и социальных сетях, поднявшийся после скандала с участием Apple, а также чуть ранних почти аналогичных скандалов в участием Amazon и Google, связан с тем, что, как выяснили пользователи, один из этих инструментов не работает или работает не так, как они предполагали. Дело в том, что, несмотря на все успехи алгоритмов для распознавания голоса, они все еще неидеальны. Из-за этого возникает две проблемы: ложноотрицательные и ложноположительные срабатывания. Первые означают, что алгоритм не распознает сказанную пользователем активационную фразу. Это не отлично, но и не ужасно, потому что фразу можно повторить и добиться ответа. Второй тип ошибок опаснее — алгоритм слышит фразу там, где ее нет, и начинает пересылать на сервер все дальнейшие звуки.
Поскольку компании заинтересованы в повышении качества работы алгоритмов, они постоянно корректируют их. При этом нейросетевые алгоритмы распознавания речи требуют большого количества данных, причем желательно собранных не в лаборатории, а в реальных условиях, в которых люди пользуются устройствами. Например, затруднения алгоритма может вызвать посторонний шум в комнате или запрос от ребенка, нечетко выговаривающего слова. Для дообучения алгоритма данные для него должны быть размечены: каждому участку на записи нужно сопоставить слово. Кроме того, проанализировать нужно и сами ответы алгоритма на предмет того, насколько они логичны и отвечают на заданный пользователем вопрос.
Именно для этого в Apple, Amazon, Google и Яндекс работают программы повышения качества работы алгоритмов, в рамках которых специалисты размечают данные части пользователей. Кроме того, как выяснилось, специалистами могут выступать сотрудники сторонних компаний или даже пользователи краудсорсинговых сервисов, как в случае с Яндексом и «Алисой». Поэтому в том, что записи разговоров пользователей слушают другие люди, нет злого умысла, и такая работа над ошибками как раз должна снизить количество подобных записей.
Однако сказать, что компании не виноваты в ситуации, тоже нельзя. Все эти истории привлекли общественный интерес из-за того, что компании практически никак не упоминают о подобных программах и обычный пользователь не может узнать о них без шума в СМИ и вынужденных официальных заявлений компаний.
Иногда доходит до того, что сама техническая возможность записи оказывается сюрпризом для пользователей. Самый яркий пример этого — недавняя история с Google, поглотившей производителя устройств умного дома Nest. В начале года Google объявила, что ее умный помощник Assistant «поселится» в некоторых уже выпущенных и проданных устройствах Nest, в том числе сигнализации Nest Guard. В целом объявление не выглядит удивительным, если не вспоминать про один факт: на сайте производителя никогда не было указано, что в устройстве есть работающий микрофон, необходимый для этой функции. Позднее Google признала ошибку, но заверила, что не хотела скрывать это от пользователей.
Кроме того, есть вопросы (в основном риторические) и к организации программ по улучшению качества. Например, почему пользователи включены в них по умолчанию, а не могут самостоятельно соглашаться на это? Почему «обезличенные» данные содержат в себе помимо аудиозаписей сведения о местоположении в момент записи? Кстати, о том, насколько обезличенные данные на самом деле анонимны, можно прочитать в недавнем исследовании европейских ученых в Nature Communications (простите, что не написали о нем заметку).
Наконец, вопрос приватности гораздо шире, чем голосовые помощники. К примеру, все большее распространение получают умные камеры, связь с которыми также происходит через сервера компаний-производителей. При этом данные, получаемые с помощью камер представляют больший интерес для компаний, например, в качестве датасетов для обучения нейросетей, а также могут содержать более приватную информацию.
Что же делать, если пользоваться умной колонкой хочется, а отдавать записи своей речи кому-то еще — не очень? Во-первых, в случае с Apple, компания пообещала, что в будущем даст пользователям возможность отказаться от участия в программе улучшения качества. Вскоре после этого подобную настройку пообещала ввести Amazon. Учитывая внимание общества и властей некоторых стран к подобным ситуациям у Google, а также в целом к скандалам, связанным с приватностью, например с участием Facebook, существует достаточно большая вероятность, что такая же возможность скоро появится у пользователей Google Assistant и Microsoft Cortana. Однако это все еще будет означать, что пользователь должен доверять компании и надеяться на то, что все еще записываемые и хранимые данные не передаются на оценку специалистам.
Есть второй путь — открытые проекты, такие как Mycroft. Это самый известный и наиболее близкий к обычному пользователю подобный проект. Он состоит из умной колонки на базе Raspberry Pi и открытого программного обеспечения на базе Mozilla DeepSpeech. Однако он все равно производит обработку голоса на сервере компании-разработчика. Есть также дружелюбный к пользователю проект Snips, имеющий закрытый код, но способный после обучения работать в оффлайн-режиме. Наконец, существуют открытые проекты голосовых помощников для локального распознавания речи, такие как Kalliope, но для их развертывания все же будут нужны некоторые навыки разработчика.
Третий вариант, пожалуй, лучше всего балансирует между приватностью и удобством. Недавно мы рассказывали про проект, который представляет собой насадку на умную колонку Google Home и Amazon Echo, которая постоянно издает белый шум прямо в микрофон колонки и прекращает делать это только тогда, когда пользователь произнес активационную фразу, которую, кстати, можно сделать любой. После этого колонка работает в обычном режиме, общаясь с серверами Google или Amazon.
А если вам нужна железная уверенность в том, что умная колонка не «сливает» ваши разговоры кому-либо еще, лучше положите ее обратно в коробку и поставьте на антресоль.