Свободно доступные алгоритмы для синтеза речи способны обмануть как алгоритмы для идентификации человека по голосу, так и обычных людей, выяснили американские исследователи. Они использовали два алгоритма, которые на основе коротких записей голоса создают новую речь, «произнесенную» тем же человеком. Статья опубликована на arXiv.org.
Наряду с распознаванием лиц, некоторые сервисы применяют алгоритмы для идентификации голоса. Например, умные колонки Яндекса умеют узнавать голос владельца, чтобы учитывать рекомендации только для его запросов, а WeChat позволяет войти в аккаунт с помощью голоса. Разработчики этих и других сервисов исходят из того, что человеческий голос уникален, поэтому его можно использовать как надежное доказательство, что система разговаривает именно с хозяином аккаунта или устройства. Но алгоритмы синтеза речи, особенно нейросетевые, быстро развиваются, и есть как открытые алгоритмы, так и коммерческие сервисы, позволяющие по довольно небольшому объему записей (относительно того, который используется для базовой модели) создать модель, качественно копирующую голос конкретного человека. И если алгоритмы распознавания лиц зачастую учитывают объем, поэтому обмануть их простым дипфейком не получится, то для голоса нет возможности учесть какой-то подобный дополнительный фактор.
Исследователи из Чикагского университета под руководством Эмили Венгер (Emily Wenger) решили оценить прогресс алгоритмов копирования голоса и проверить их работу. Выбранная модель атаки предполагает, что у злоумышленника есть доступ к образцам голоса жертвы в виде публично доступных аудио или видеозаписей, или возможность пообщаться с ним, чтобы записать речь. Используя эти данные, он может дообучить голосовую модель, чтобы та синтезировала желаемый голос. При этом авторы сделали реалистичное ограничение — для формирования копирующей модели у злоумышленника есть не более пяти минут записей. Также они решили использовать только публично доступные алгоритмы. Исследователи выбрали два таких алгоритма: SV2TTS и AutoVC. Для обучения моделей авторы использовали записи речи 90 людей из трех публичных датасетов: VCTK, LibriSpeech и SpeechAccent.
Исследователи проверяли качество синтезированных записей речи на открытом программном обеспечении Resemblyzer, а также коммерческих сервисах: Microsoft Azure, WeChat и Amazon Alexa. Лучше всего себя показали модели, обученные на базе SV2TTS и датасета VCTK. Для Resemblyzer доля успешных атак составила 50,5 ± 13,4 процента, для Azure — 29,5 ± 32 процента. Поскольку у WeChat и Alexa нет открытого API, их исследователи тестировали иначе. Они привлекли 14 добровольцев, которые зачитывали текст для обучения модели, а затем проверяли систему с помощью синтезированных SV2TTS аудиозаписей — пытались войти в аккаунт WeChat или просили Alexa выполнить персонализированную команду. 9 из 14 добровольцам удалось войти в WeChat (всего было 6 фейковых аудиозаписей), а Alexa так или иначе удалось обмануть всем 14 добровольцам, в среднем успешность составила 62,2 процента.
После оценки алгоритмов, исследователи проверили людей, пригласив 200 добровольцев. Им давали прослушать пары аудиозаписей и спрашивали, кто их произнес: один человек или разные. В парах было три варианта, о которых участники не знали: две записи от одного человека; две от разных; запись от одного человека и подделывающей его голос модели. Выяснилось, что в половине случаев добровольцы не сумели различить настоящий голос от поддельного. Им также давали записи известных людей и поддельные образцы их речи. В таком случае обман не смогли распознать только в 20 процентов случаев.
Пока визуальным нейросетевым подделкам уделяют гораздо больше внимания. Так, некоторые регионы и страны запрещают дипфейки, а технологические компании проводят конкурсы по борьбе с ними.
Григорий Копиев
Теперь она может определять киберугрозы
Исследователи из Южной Кореи обучили языковую модель DarkBERT на текстах из даркнета. Люди общаются в даркнете иначе, чем в обычном интернете, в том числе используют свой сленг. Модель изучила этот язык, и теперь ее можно применять в задачах кибербезопасности. Препринт доступен на arXiv.org. Языковые модели сегодня применяют для изучения разных текстов. Это нейросети, которые обучились на большом количестве данных и хорошо выполняют задачи, связанные с пониманием речи. Популярные языковые модели основаны на архитектуре Transformer, которую придумали инженеры из Google — такие модели умеют фокусировать внимание на важных частях предложения. Языковые модели лучше всего понимают то, что похоже на примеры из обучающей выборки. Обычно они учатся на больших объемах текстов из интернета, поэтому понимают много чего: литературный язык, сообщения из социальных сетей, научно-популярные статьи. Но есть тексты, которые не попадают в обучающую выборку, в том числе тексты из даркнета. У них есть свои лингвистические особенности: словарный запас, распределение частей речи и даже синтаксис. Обычные языковые модели это не учитывают, потому что во время обучения не видели таких текстов. Выход есть — обучить языковую модель на материалах из даркнета. Даркнет — это часть интернета, которую не найти в обычных поисковиках вроде Яндекса или Гугла. Туда нельзя попасть через обычный браузер. Есть разные сервисы для входа в даркнет, авторы исследования использовали Tor. Люди в даркнете общаются анонимно, и их сложно отследить. Поэтому даркнет стал платформой для всякого незаконного, от утечек данных до торговли запрещенными веществами. Специалисты по кибербезопасности постоянно ищут способы мониторить и изучать тексты в даркнете. Группа ученых из Южной Кореи под руководством Сун Вон Шина (Seungwon Shin) из Корейского института передовых технологий собрала корпус текстов из даркнета и обучила на нем языковую модель DarkBERT. Сначала авторы составили списки сайтов с помощью инструмента поиска по даркнету. Затем они скачали 6 миллионов веб-страниц и превратили их в тексты. Для обучения использовали модель RoBERTa, основанную на архитектуре Transformer. После обучения на текстах даркнета получилась готовая модель DarkBERT. Ее качество сравнивали со стандартными моделями RoBERTa и BERT, которые обучались на обычных текстах. Тестировали модели на разных сценариях киберугроз. Например, иногда злоумышленники похищают конфиденциальные данные с сайтов и вымогают у их владельцев деньги. Если деньги не поступают, злоумышленники публикуют украденные данные. Нейросети получали текст сайта и решали задачу бинарной классификации: определить, размещают ли на нем утекшие данные. DarkBERT справился с этой задачей намного лучше (точность 84 процента у DarkBERT против 70 процентов у BERT и 44 процента у RoBERTa). Еще один пласт нелегальной активности в даркнете — это продажа запрещенных веществ. Авторы проверили, насколько хорошо разные модели понимают сообщения с форумов даркнета: нейросети выделяли ключевые слова в сообщениях о запрещенных веществах. Такие ключевые слова могут пригодиться сотрудникам правоохранительных органов, чтобы быстро искать сообщения о продаже веществ и определять продавцов. Эту задачу тестировали на DarkBERT и на похожей модели BERT, дообученной на тематическом сабреддите. Здесь DarkBERT снова обошел конкурента (точность определения топ-10 ключевых слов 60 процентов у DarkBERT против 40 процентов у BERT). В целом результаты показывают, что предобученная на текстах из даркнета нейросеть DarkBERT справляется с задачами кибербезопасности лучше, чем другие модели. Ее можно использовать, чтобы мониторить нелегальную активность в даркнете, вычислять преступников и предотвращать утечки данных. Но у DarkBERT есть свои ограничения. Во-первых, она умеет работать только с англоязычными текстами. Во-вторых, обучающую выборку из даркнета собирать сложно, потому что сайты непросто найти и превратить в тексты. А чем больше подходящих текстов, тем выше эффективность модели. Другие языковые модели тоже продолжают развиваться. Например, инженеры из Яндекса натренировали нейросеть на русскоязычных текстах и встроили ее в Алису.