Свободно доступные алгоритмы для синтеза речи способны обмануть как алгоритмы для идентификации человека по голосу, так и обычных людей, выяснили американские исследователи. Они использовали два алгоритма, которые на основе коротких записей голоса создают новую речь, «произнесенную» тем же человеком. Статья опубликована на arXiv.org.
Наряду с распознаванием лиц, некоторые сервисы применяют алгоритмы для идентификации голоса. Например, умные колонки Яндекса умеют узнавать голос владельца, чтобы учитывать рекомендации только для его запросов, а WeChat позволяет войти в аккаунт с помощью голоса. Разработчики этих и других сервисов исходят из того, что человеческий голос уникален, поэтому его можно использовать как надежное доказательство, что система разговаривает именно с хозяином аккаунта или устройства. Но алгоритмы синтеза речи, особенно нейросетевые, быстро развиваются, и есть как открытые алгоритмы, так и коммерческие сервисы, позволяющие по довольно небольшому объему записей (относительно того, который используется для базовой модели) создать модель, качественно копирующую голос конкретного человека. И если алгоритмы распознавания лиц зачастую учитывают объем, поэтому обмануть их простым дипфейком не получится, то для голоса нет возможности учесть какой-то подобный дополнительный фактор.
Исследователи из Чикагского университета под руководством Эмили Венгер (Emily Wenger) решили оценить прогресс алгоритмов копирования голоса и проверить их работу. Выбранная модель атаки предполагает, что у злоумышленника есть доступ к образцам голоса жертвы в виде публично доступных аудио или видеозаписей, или возможность пообщаться с ним, чтобы записать речь. Используя эти данные, он может дообучить голосовую модель, чтобы та синтезировала желаемый голос. При этом авторы сделали реалистичное ограничение — для формирования копирующей модели у злоумышленника есть не более пяти минут записей. Также они решили использовать только публично доступные алгоритмы. Исследователи выбрали два таких алгоритма: SV2TTS и AutoVC. Для обучения моделей авторы использовали записи речи 90 людей из трех публичных датасетов: VCTK, LibriSpeech и SpeechAccent.
Исследователи проверяли качество синтезированных записей речи на открытом программном обеспечении Resemblyzer, а также коммерческих сервисах: Microsoft Azure, WeChat и Amazon Alexa. Лучше всего себя показали модели, обученные на базе SV2TTS и датасета VCTK. Для Resemblyzer доля успешных атак составила 50,5 ± 13,4 процента, для Azure — 29,5 ± 32 процента. Поскольку у WeChat и Alexa нет открытого API, их исследователи тестировали иначе. Они привлекли 14 добровольцев, которые зачитывали текст для обучения модели, а затем проверяли систему с помощью синтезированных SV2TTS аудиозаписей — пытались войти в аккаунт WeChat или просили Alexa выполнить персонализированную команду. 9 из 14 добровольцам удалось войти в WeChat (всего было 6 фейковых аудиозаписей), а Alexa так или иначе удалось обмануть всем 14 добровольцам, в среднем успешность составила 62,2 процента.
После оценки алгоритмов, исследователи проверили людей, пригласив 200 добровольцев. Им давали прослушать пары аудиозаписей и спрашивали, кто их произнес: один человек или разные. В парах было три варианта, о которых участники не знали: две записи от одного человека; две от разных; запись от одного человека и подделывающей его голос модели. Выяснилось, что в половине случаев добровольцы не сумели различить настоящий голос от поддельного. Им также давали записи известных людей и поддельные образцы их речи. В таком случае обман не смогли распознать только в 20 процентов случаев.
Пока визуальным нейросетевым подделкам уделяют гораздо больше внимания. Так, некоторые регионы и страны запрещают дипфейки, а технологические компании проводят конкурсы по борьбе с ними.
Григорий Копиев
Она хороша в программировании и меньше галлюцинирует
Компания OpenAI представила новую флагманскую систему алгоритмов GPT-5, которая в ближайшее время заменит модели предыдущего поколения в ChatGPT. Пятое поколение GPT представляет собой единую систему, которая в зависимости от сложности запроса в реальном времени решает: быстро дать ответ, либо задействовать более глубокие рассуждения. GPT-5 демонстрирует повышенную производительность в программировании, написании текстов и ответах на вопросы, связанные со здоровьем, а также значительно реже галлюцинирует по сравнению с предыдущим поколением моделей OpenAI. GPT-5 будет доступна для всех пользователей ChatGPT, включая бесплатных, с ограничениями на количество запросов в зависимости от уровня подписки. Подробности опубликованы в блоге компании и системной карточке модели.