Исследователи из Нидерландов и Бельгии предложили заменять традиционный камуфляж для самолетов на аэродромах на небольшие относительно самолета тенты с нанесенными на них состязательными примерами — типом изображений, которые выглядят для человека как абстрактный набор фигур разных цветов, но для нейросети похож на объект определенного класса. Статья опубликована на arXiv.org.
У нейросетей есть фундаментальный недостаток, который потенциально можно использовать для умышленной атаки на них. Наиболее часто его наблюдают на примере алгоритмов распознавания и классификации. При работе с обычными изображениями, например, фотографиями животных, нейросеть адекватно распознает объекты на них. Однако для этой конкретной нейросетевой модели изображение с привычными для нее данными, к примеру, фотографию кота, можно немного изменить, после чего для человека она останется неотличимой от оригинала невооруженным взглядом, но для нейросети будет казаться совсем иной, например, фотографией слона. Учитывая, что нейросетевые алгоритмы применяются во все большем количестве областей, в том числе в беспилотных автомобилях, системах распознавания подозреваемых и даже в военной технике, исследователи считают состязательные примеры серьезной угрозой безопасности.
Состязательные примеры можно условно разделить на два основных класса: изображения с попиксельной заменой, годящиеся для атак в цифровом виде, и «стикеры» — небольшие самостоятельные изображения, в которых человек не может распознать никакой конкретный объект. Второй тип интересен тем, что его можно применять и вне цифровых устройств. К примеру, есть эксперименты, в которых авторы «скрывались» от систем распознавания лиц или обнаружения людей с помощью очков или плаката.
В новой работе исследователи под руководством Ажая Адхикари (Ajaya Adhikari) и Ричарда Ден Холландера (Richard den Hollander) из Нидерландской организации по прикладным научным исследованиям предложили использовать состязательные примеры как камуфляж для самолетов и другой военной техники, стоящей на аэродромах или других открытых пространствах.
Исследователи применили известный алгоритм обнаружения объектов YOLOv2 и классический метод подбора состязательного изображения. Сначала алгоритм берет спутниковый снимок самолетов и накладывает на каждый самолет это изображение. Поскольку цель исследования заключалась в разработке реально применимой системы, изображение предварительно случайным образом растягивали, масштабировали, поворачивали, а также добавляли шум и меняли контраст. В результате алгоритм получал снимок с наложенным на самолеты изображением, которое по своему виду было похоже на реальный объект, к примеру, тент, а не вставленный программным образом.
После этого изображение пропускали через нейросеть для распознавания объектов. После этого изображение оптимизируется с помощью функции потерь, которая учитывает три фактора: можно ли реально напечатать определенный цвет или сочетание, насколько уверенно нейросеть распознает объекты любых классов на фотографии и вариативность состязательного изображения (не превращается ли оно в набор шума). Затем цикл повторяется, но уже с оптимизированным изображением. В результате за множество циклов появляется изображение, которое хорошо путает алгоритм распознавания объектов и при этом устойчиво к различным помехам, которые могут появиться при съемке с дрона или спутника.
Исследователи отмечают, что на видеокарте Nvidia GTX 1080Ti на создание каждого изображение уходило 30 часов непрерывных вычислений. Эксперименты на спутниковых снимках показали, что большие изображения (20 процентов от ширины ограничивающей рамки, рисуемой алгоритмом обнаружения объектов) снижают среднюю точность алгоритма обнаружения с 94 процентов до 5,6, а маленькие изображения (10 процентов) до 37,8 процента. Также оказалось, что изображение можно накладывать и на соседнюю часть взлетно-посадочной полосы, а не на сам самолет, но эффективность в таком случае заметно ниже.
Авторы признают, что для полноценной проверки алгоритма необходимо провести эксперимент с настоящим тентом на самолете. Однако по их мнению случайные изменения, которые они вносили в изображения, вполне достаточны для имитации реальных условий. Кроме того, пока они проверяли лишь один алгоритм, тогда как в реальности разные системы обнаружения военной техники могут использовать разные алгоритмы. Но одна из предыдущих работ по состязательным примерам показывает возможность создания изображения, запутывающего разные алгоритмы распознавания.
В конце 2018 года исследователи создали программное обеспечение, позволяющее вносить небольшие изменения в изображения и тестировать алгоритмы на корректную работу. Оказалось, что многие лидирующие нейросети можно обмануть простым поворотом объекта.
Григорий Копиев
Неинвазивный декодер восстановил текст из корковых семантических представлений
Американские исследователи разработали неинвазивный декодер, который по активности мозга может реконструировать непрерывный текст — будь то история, которую человек слушает, или воображаемый рассказ, или даже суть видеоролика, в котором нет слов. Декодер обучали на данных фМРТ трех человек, которые 16 часов слушали истории. Модель не всегда могла предсказать точные слова по записям фМРТ, но передавала смысл историй. Результаты опубликованы в Nature Neuroscience. Чтобы записать нейронную активность, необходимую для декодирования речи, нужно установить электроды прямо на мозг. Этот способ используют в исследованиях с парализованными людьми, которые не могут говорить, но инвазивность такой процедуры ограничивает ее применение. Декодеры, использующие неинвазивные записи активности мозга, способны расшифровывать отдельные слова или короткие фразы, но неизвестно, могут ли эти декодеры работать с непрерывным естественным языком. Александр Хаc (Alexander Huth) из Техасского университета в Остине и его коллеги разработали декодер, который восстанавливает непрерывный текст из записей активности мозга, полученных неинвазивным способом — с помощью функциональной магнитно-резонансной томографии. Серьезным ограничением было то, что сигнал фМРТ не успевает за нейронной активностью. Функциональная магнитно-резонансная томография измеряет изменения кровотока, вызванные нейронной активностью в той или иной части мозга. Чтобы сигнал фМРТ увеличился или снизился, требуется около 10 секунд. За это время англоговорящий человек может услышать или произнести более 20 слов. Выходит, что слов для декодирования больше, чем изображений фМРТ. Ученые решили это проблему так: научили декодер угадывать последовательность слов, оценивая, насколько вероятно каждое возможное слово могло вызвать конкретную записанную реакцию мозга, — и так выбирать лучшего кандидата, то есть самое вероятное слово. Модель кодирования обучалась на сигналах фМРТ трех человек, записанных на протяжении 16 часов, пока люди слушали разные истории. Этого хватило, чтобы модель научилась предсказывать, какую реакцию мозга вызывают те или иные семантические признаки. Затем ученые предлагали испытуемым послушать истории, которые те еще не слышали, и записывали реакцию мозга. По этим записям декодер должен был реконструировать эти истории. Языковая модель — нейросеть GPT-1 — выдавала варианты слов, а модель кодирования оценивала вероятность того, что именно это слово могло продолжать историю. Декодер точно воспроизводил часть слов и фраз и улавливал суть многих других. Сгенерированные последовательности слов захватывали общий смысл новых историй. Сюжет, предсказанный декодером, напоминал сюжет реальной истории сильнее, чем если бы это было случайным совпадением (p < 0,05). Данные исследователи записывали с трех корковых сетей — классической языковой сети, сети теменно-височно-затылочной ассоциативной коры, и сети префронтальной коры. Сигналы каждой сети декодировались по-отдельности в каждом полушарии. Примечательно, пишут авторы, что большинство временных точек удавалось декодировать только по сигналам из ассоциативной (80–86 процентов) и префронтальной (46–77 процентов) сетей. И только 28–59 процентов временных точек были декодированы из речевой сети. Ученые пришли к выводу, что одни и те же слова могут быть закодированы в разных регионах мозга, и в будущем может быть достаточно записей активности отдельных областей. Еще авторы обнаружили, что по данным фМРТ декодер может предсказать смысл короткой истории, которую участник вообразил и рассказал про себя, или суть просмотренного видеоролика без слов. Однако декодирование воображаемой речи было не таким успешным, как декодирование услышанных историй, потому что модель кодирования обучали на реакциях мозга на воспринимаемую речь. Дополнительно участникам предложили послушать одновременно две истории, но обращать внимание только на одну, а вторую игнорировать. Расшифровка декодера была больше похожа на ту историю, к которой участники прислушивались. Декодер плохо расшифровывал сигналы мозга человека, на котором его не обучали. То есть нельзя обучить декодер на одном человеке и затем использовать его для «чтения мыслей» других людей. Точность декодирования, как выяснили авторы, зависела от объема данных, на которых обучали декодер. Кроме того, немного увеличить точность помогло увеличение отношения сигнала фМРТ к шуму. А еще декодер хуже справлялся со словами с определенными семантическими свойствами, независимо от шума. Более конкретные слова — night, door, restaurant, school и подобные — декодировались лучше, а слова вроде find, say, kind, get — хуже. Кроме того, что большинство существующих декодеров требует имплантации электродов в мозг, эти декодеры нередко опираются на данные речевых моторных зон, которые активны, когда субъект говорит или пытается говорить. В отличие от них, эта модель работает с сигналами областей мозга, которые кодируют семантические представления. Эти области активны даже когда человек слышит чужую речь или просто думает о том, что хочет сказать. Однако восстановить отдельные слова такой декодер часто не может. Подобным образом несколько лет назад исследователи научили нейросеть воссоздавать изображения по записям фМРТ. Хотя изображения получились абстрактными, в них можно было узнать закодированные картинки.