«Кислотные» стикеры заставили нейросеть увидеть тостер в изображении банана

Разработчики Google представили новый способ обмана систем компьютерного зрения, специализирующихся на распознавании и классификации объектов. В препринте, опубликованном на arXiv, специалисты предлагают использовать для этого простые наклейки с психоделическими орнаментами.

Основной угрозой для алгоритмов компьютерного зрения, выполняющих задачи распознавания и классификации изображений, являются состязательные примеры (англ. adversarial examples) — слегка измененные исходные данные, которые выглядят точно так же для человека, но могут неправильно интерпретироваться компьютером. Тем не менее, такая угроза наиболее эффективна только в том случае, когда изначальный алгоритм классификации известны; в другом случае задача может осложниться.

В своей новой работе специалисты из Google под руководством Джастина Гилмера (Justin Gilmer) предложили обманывать распознающие изображения нейросети, не основываясь на изменениях исходных данных. Такой метод обмана наиболее эффективен: для атакующей системы неважно, какой именно объект находится на изображении, и поэтому она может обмануть как классификаторы, информация о которых доступна (так называемый «белый ящик»), так и закрытые классификаторы («черные ящики»).

Предложенный способ достаточно прост: рядом с распознаваемым объектом (на фотографии или в реальном мире) помещается небольшой круглый стикер не связанного с изображением предмета. Основная идея работы такого алгоритма заключается в том, что все системы распознавания изображений основаны на поиске наиболее заметных или выступающих их частей: именно так, например, сверточные нейросети могут выделить отдельные предметы на общем фоне. 

На стикере, использованном в работе, — измененное изображение тостера. С помощью него разработчикам удалось обмануть один из самых эффективных алгоритм распознавания VGG16, разработанный специалистами из Оксфордского университета: система распознала банан с точностью в 97 процентов, а появившийся стикер заставил ее думать, что на изображении — тостер (точность при этом составила 99 процентов). Стикер с неизмененным изображением тостера на классификатор никак не повлиял. 

Эффективность такого метода также зависит от размера: так, стикер может обмануть классификатор, представленный в «белом ящике», с вероятностью выше 90 процентов в том случае, если стикер занимает от 10 процентов всего изображения. 

Разработчики показали, что обмануть подобные системы можно и без использования информации об объекте распознавания: при помощи небольшой наклейки. Использованный в работе образец также доступен в препринте вместе с инструкциями его эффективного тестирования в разных системах распознавания: как «белых», так и «черных». 

Недавно программисты из MIT показали другой алгоритм обмана классификации объектов, основанной на работе нейросетей: для этого была использована попиксельная замена исходного изображения.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Зоопарк алгоритмов

Что такое нейросети и какими они бывают