Разработчики из Google адаптировали приложения видеосвязи для глухих людей. Они создали программу, которая обнаруживает, когда кто-нибудь из собеседников начинает говорить на жестовом языке, и заставляет программу показывать его как активного собеседника. Авторы подробно описали разработку в статье, представленной на конференции SLRTP 2020, создали сайт с демо-версией программы и опубликовали исходный код в двух репозиториях на GitHub (1, 2).
Видеосвязь позволяет не только получать информацию о человека, как в случае с текстом, но и видеть его мимику и слышать голос. Это позволяет эффективнее общаться, особенно когда в разговоре участвуют сразу несколько человек, к примеру, коллеги из одной компании. Из-за карантинных мер во время пандемии нового коронавируса многие организации частично или полностью перешли на удаленную работу, а часть из них, в том числе и крупные IT-компании, планируют сделать удаленный режим работы вариантом нормы даже когда карантинные меры будут отменены. Однако глухие люди не могут в полной мере пользоваться программами видеосвязи. Например, когда в звонке участвует сразу несколько собеседников, обычно программа по уровню громкости определяет говорящего и показывает видео с его камеры остальным. При разговоре на жестовом языке этот метод бесполезен.
Срини Нараянан (Srini Narayanan) и его коллеги из Google создали программу, которая работает с популярными приложениями видеосвязи и позволяет акцентировать внимание на человеке, говорящем жестами. Программу условно можно разбить на две части: первая анализирует разговор на языке жестов, а вторая связывается с приложением для видеосвязи.
Программа выполнена в виде веб-приложения, написанного на TensorFlow.js. Оно снимает пользователя и сначала составляет схематическую модель его тела при помощи алгоритма PoseNet. На каждом кадре модель нормализуется по размеру, чтобы работа алгоритма не зависела от того, как далеко от камеры или под каким углом сидит человек. Затем по соседним кадрам (состояниям модели) алгоритм рассчитывает оптический поток и тем самым определяет, что человек активно двигает руками.
Когда алгоритм определил, что человек говорит, в дело вступает его вторая часть, которая отвечает за связь с приложением, к примеру, Zoom или Google Meet. Разработчики применили простой и в то же время изобретательный прием: к обычной записи с микрофона он подмешивает ультразвук с частотой 20 килогерц, который обычно не слышат люди. Алгоритм передает эти данные в приложение через виртуальный кабель, а приложение распознает ультразвук как громкий шум и переключает внимание на этого собеседника, думая что он громко говорит.
Разработчики обучили алгоритм определения речи на датасете немецкого жестового языка с роликами, на которых размечены фрагменты с речью. Алгоритм построен по архитектуре долгой краткосрочной памяти (LSTM) и учитывает десятки предыдущих кадров при определении активности. После обучения он показал точность работы 91,5 процента и скорость обработки одного кадра равную 3,5 миллисекунды.
Авторы признают, что в текущем виде у алгоритма есть явные недостатки. Например, он определяет активность человека в целом по движению его тела и рук и поэтому не различает жестовую речь и обычные движения руками. Кроме того, поскольку звук подается через виртуальный кабель, программа работает только с Windows и Mac (скоро появится поддержка Linux) и в обозримом будущем не сможет работать на смартфонах. Тем не менее даже в таком виде алгоритм может быть полезным и работать с популярными приложениями.
В 2018 году американский программист создал приложение для ноутбука, которое делает умные колонки доступными для глухих. Оно распознает жесты и воспроизводит через динамики голосовую команду, а затем распознает ответ колонки и выводит его на свой экран в текстовом виде.
Григорий Копиев
На взлом одного смартфона ушло от 40 минут до 13 часов
Китайские ученые нашли в смартфонах шести крупных компаний (Samsung, Xiaomi, HUAWEI, Vivo, OnePlus, OPPO) уязвимости, которые позволяют взломать сканер отпечатков пальцев. Им удалось получить бесконечное количество попыток для разблокировки смартфонов, создать много искусственных отпечатков с помощью нейросетей и подобрать подходящий для разблокировки. Препринт доступен на arXiv.org. Аутентификация с помощью отпечатка пальца в смартфонах состоит из 4 этапов. Первый этап — это получение отпечатка. Когда палец касается сенсора, он делает несколько изображений отпечатка. Затем идет этап компенсации: чтобы улучшить качество изображений, с них удаляется шум. На следующем этапе алгоритмы проверяют текстуры, нажим и форму отпечатка. Их цель — отличить отпечаток настоящего человеческого пальца от, например, отпечатка пальца силиконовой руки. Хакеры могут использовать искусственные пальцы из разных материалов, чтобы взломать смартфон. На последнем этапе аутентификации полученный отпечаток сравнивается с правильным отпечатком из базы данных. В отличие от паролей, система не проверяет полное соответствие двух отпечатков. Вместо этого полученному отпечатку достаточно преодолеть заданный порог сходства с правильным. Если пробовать много разных отпечатков, один из них рано или поздно перейдет этот порог. Поэтому у сканеров отпечатков пальцев есть дополнительный метод усиления безопасности — это ограничение количества попыток. После нескольких безуспешных попыток зайти в смартфон система блокирует доступ. Китайские инженеры Чен Ю (Chen Yu) из компании Tensent и Хе Илинь (He Yiling) из Чжэцзянского университета придумали алгоритм BrutePrint, который может обмануть сканер отпечатков пальцев методом полного перебора. Они обнаружили две уязвимости Cancel-After-Match-Fail (CAMF) и Match-After-Lock (MAL), благодаря которым можно делать сколько угодно попыток аутентификации по отпечатку, а иногда и похитить отпечаток пальца пользователя, который хранится на смартфоне. Уязвимость CAMF основана на том, что за одну попытку аутентификации сканер обычно делает сразу несколько изображений отпечатков. Если убедить сканер, что множество разных изображений были сделаны за одну попытку, то можно пробовать бесконечно много отпечатков. Дело в том, что сканер может сделать три вывода по одному изображению: на нем правильный отпечаток, на нем неправильный отпечаток или в ходе сканирования случилась ошибка. Например, что-то произошло с оборудованием и вызвало сбой в программе. В случае такой ошибки попытка не заканчивается. Система BrutePrint нарушает контрольную сумму изображения отпечатка, которая как раз приводит к этой ошибке. Другая уязвимость MAL помогает обойти режим блокировки доступа после превышения числа неправильных попыток. В некоторых смартфонах во время выхода экрана из спящего режима режим блокировки доступа не работает. Этого хватает, чтобы внедриться в систему и запустить попытки доступа к сканеру отпечатков. Кроме того, в процессе сравнения отправленных отпечатков с правильными, которые хранятся в смартфоне, можно их похитить. Главный этап атаки — внедриться в систему сканирования и начать посылать ей изображения отпечатков, используя уязвимости CAMF и MAL. Для этого инженеры собрали систему, которая может перехватывать и менять сигнал между сканером отпечатков пальцев и процессором смартфона. В смартфоне сканер и процессор соединены интерфейсом, и атакующая система имитирует этот интерфейс: она тоже соединяется со сканером и процессором. В систему также входит карта памяти, на которой хранятся заранее подготовленные отпечатки пальцев для перебора. Авторы утверждают, что итоговая стоимость всех компонентов составила всего 15 долларов. Базу данных отпечатков для перебора можно собрать самостоятельно или найти в открытых источниках: научных исследованиях или утечках данных. Авторы сами сгенерировали данные для перебора. Важная часть атаки — это предобработка отпечатков, чтобы они выглядели реалистично и подходили для сенсора в конкретном смартфоне. Инженеры использовали нейросеть CycleGAN, которая умеет менять стиль изображения. Для эксперимента с каждым смартфоном авторы обучали нейросеть редактировать отпечатки, чтобы они были похожи на отпечатки с его сенсора. Инженеры провели десять экспериментов с разными смартфонами. Уязвимость CAMF сработала на всех моделях, но по-разному. Авторам удалось получить неограниченное количество попыток разблокировки на всех смартфонах с операционной системой Android и только 15 попыток на iOS. Кроме того, на айфонах ученым не удалось перехватить сигнал между процессором и сканером отпечатков пальцев. Дело в том, что iOS всегда шифрует этот сигнал, в отличие от Android. В итоге сканер не удалось взломать только на смартфонах компании Apple. На взлом остальных гаджетов ушло от 40 минут до 13 часов. Ученым также удалось похитить оригинальные отпечатки пальцев пользователей со всех смартфонов на платформе Android. Авторы предлагают несколько методов, которые помогут производителям смартфонов сделать сканеры отпечатков пальцев безопасней. Во-первых, избавиться от уязвимости CAMF: для этого нужно добавить проверку на количество ошибочных попыток, которые не дошли до этапа сравнения с правильным отпечатком. Чтобы устранить уязвимость MAL, нельзя отменять блокировку доступа. Наконец, нужно шифровать сигналы, которыми обмениваются сканер и процессор. Сканер отпечатков пальцев — не единственная система разблокировки, которую можно взломать. Вьетнамским инженерам удалось обмануть Face ID в iPhone X с помощью маски. Ее распечатали на 3D-принтере, налепили на нее нос и приклеили изображения губ и глаз. Сканер Face ID принял маску за настоящее лицо.