Движения рук в видеозвонке помогли подсмотреть печатаемый текст

Chi's Sweet Home / Madhouse, 2004 – 2015

Движения рук во время видеозвонка может помочь злоумышленникам распознать слова и пароли, которые собеседник печатает на клавиатуре, рассказывают американские разработчики в статье, опубликованной на arXiv.org. Они создали алгоритм, который анализирует движения контуров плеч и рук и восстанавливает по ним список слов-кандидатов, который значительно упрощает задачу злоумышленника.

Чаще всего злоумышленники пытаются заполучить конфиденциальную информацию цифровым способом — то есть используя вредоносные программы и уязвимости в программном обеспечении. Но есть и альтернативный подход, называемый атаками по сторонним каналам. В нем злоумышленники используют не уязвимости алгоритмов, а технические особенности реализации компьютера и подключенных устройств. Яркий пример — это «подслушивание» звуков набора текста на клавиатуре, которое позволяет восстанавливать текст, поскольку нажатие каждой клавиши немного отличается от нажатия других по звуку. Недостаток этого метода, как и почти всех атак по сторонним каналам, заключается в том, что для его воплощения в жизнь необходим физический доступ к компьютеру жертвы.

Потенциально этот метод можно было бы применить для видеозвонков. Но многие люди отключают звук в моменты, когда они не говорят, потому что у них на фоне может быть шум. Кроме того, в последнее время разработчики приложений для видеозвонков начали внедрять в них фильтрование шума, которое может отсечь и звуки нажатия клавиш. Разработчики под руководством Муртузы Джадливала (Murtuza Jadliwala) из Техасского университета в Сан-Антонио предположили, что ввод текста можно не подслушивать, а подсматривать во время видеозвонков.

Они разработали алгоритм, который устроен следующим образом. Сначала он удаляет на изображении собеседника фон вокруг тела и переводит изображение в оттенки серого. Затем алгоритм размечает на изображении лицо. Само по себе расположение лица в кадре ему не нужно, но оно помогает определить расположение рук, которое происходит на следующем этапе. После того как руки выделены, алгоритм оставляет лишь их контур и делит на две части: область около плечевого сустава и остальная часть руки.

Получив кадры с выделенными руками, алгоритм рассчитывает для них вектора смещения контуров (между двумя соседними кадрами) и по ним рассчитывает вероятность слов из словаря. Для улучшения результатов он учитывает скорость печати, то, какие руки и в каком порядке использовались во время набора, куда они двигались и сколько букв было в слове.

Имея заданный словарь из наиболее часто встречающихся слов или паролей алгоритм выдает самые вероятные из них. Авторы проверили работы алгоритма на разных веб-камерах и приложениях и получили разные результаты. К примеру, при словаре в 65 тысяч самых популярных слов и выдаче 50 самых вероятных слов алгоритмом точность предсказания по видео из Skype оказалась на 3,4 процента выше, чем в Zoom, и на 8 выше, чем в Hangouts. В целом, результаты оказались не очень точными. При использовании словаря в четыре тысячи самых популярных слов 75 процентов введенных на клавиатуре слов оказывались в списке из 200 слов, которым алгоритм присвоил самую большую вероятность.

Ранее американские инженеры научились вычислять пин-код банковской карты, анализируя показания акселерометра и гироскопа по время ввода.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.