«Отпечатки» в дипфейках выдали параметры работы создавших их нейросетей

Григорий Копиев

Американские исследовали разработали алгоритм, позволяющий определять по сгенерированному нейросетью изображению некоторые параметры нейросети, которая его создала. Анализируя особенности изображения, он определяет архитектуру нейросети и функцию потерь, использованную во время обучения, что позволяет различать изображения, созданные разными людьми или организациями, рассказывают авторы в блоге Facebook* AI и статье на arXiv.org.

В последние годы нейросетевые алгоритмы для создания изображений достигли такого качества, что, например, могут создавать фотографии людей, которые практически невозможно отличить от настоящих. Вместе с алгоритмами синтеза речи и текстов они представляют собой отличный инструмент для создания ботов злоумышленниками. Развитие алгоритмов в этой области идет по принципу щита и меча: одни исследователи совершенствуют алгоритмы генерации фейковых изображений, а другие учат алгоритмы распознавать фейки по мелким деталям, например, отражениям в глазах. Но пока алгоритмы распознавания искусственных фотографий могут лишь определять сам факт подделки.

Исследователи из Университета штата Мичиган и Facebook под руководством Сяомина Лю (Xiaoming Liu) создали алгоритм, распознающий тип нейросети, которой создали фейковое изображение, что может помочь связывать различные фейки в сети между собой и отслеживать деятельность злоумышленников.

Алгоритм состоит из двух основных частей: модуля, вычисляющего уникальные «отпечатки» нейросетевой модели по фотографии, и модуля, который по этим отпечаткам предсказывает архитектуру и использованную функцию потерь.

Модуль-вычислитель «отпечатков» принимает на вход изображение, а на выходе создает изображение с таким же разрешением, но на нем уже не отображен исходный контент, а закодирован «отпечаток». Для этого он проводит дискретное преобразование Фурье и затем проводит с его результатом несколько других операций, позволяющим увеличить различимость «отпечатка», например, отфильтровывает низкочастотную составляющую результата преобразования. В итоге модуль создает на основе сгенерированного нейросетью изображения паттерн, уникальный для этой нейросети.

«Отпечаток» передается на модуль определения нейросети. Он обучен определять 15 основных параметров нейросети, таких как количество слоев и блоков, а также восемь типов функций потерь. Он состоит из трех классификаторов для дискретных параметров и одного для непрерывных.

Исследователи отобрали 100 популярных нейросетей для создания искусственных изображений трех типов: лиц, обычных объектов (дома, автомобили, пейзажи и тому подобное) и рукописных цифр. Нейросети также различались по типам: 81 генеративно-состязательная (GAN), 13 вариационных автокодировщиков (VAE) и шесть моделей для состязательных атак (AA). Их обучали на популярных открытых датасетах, таких как ImageNet и MNIST. Для каждой модели исследователи отобрали по тысяче изображений.

Авторы отмечают, что поскольку это первая подобная работа, у них не было классического для работ по машинному обучению базового результата, с которым сравнивают работу нового алгоритма. Вместо этого они сравнивали результаты работы алгоритма — 23-мерный вектор (15 параметров и 8 функций потерь) — со случайными 23-мерными векторами. В результате новый алгоритм показал заметно большую точность:

Знание архитектуры нейросети может помочь использовать ее в других целях. В 2018 году исследователи из Google Brain показали, как можно модифицировать входное изображение таким образом, чтобы нейросеть, распознающая животных, распознавала цифры без необходимости в каком-либо переобучении.

*Facebook принадлежит компании Meta, деятельность которой в России запрещена.

Григорий Копиев