Общие слабости объединили человека с нейросетью

Различные варианты искажения изображений с одним типом объекта.

Saeed Reza Kheradpisheh, Masoud Ghodrati, Mohammad Ganjtabesh, Timothée Masquelier

Иранско-французская группа инженеров обнаружила, что современные сверточные нейросети при распознавании изображений испытывают приблизительно те же трудности, что и человек. И люди и компьютеры легче всего справляются со смещением и поворотом изображения, а тяжелее всего обеим визуальным системам дается поворот объектов в пространстве. Подробности исследования приводятся в препринте, выложенном в архиве Корнельского университета.

Архитектура современных сверточных нейросетей до некоторой степени напоминает архитектуру «настоящих», биологических сетей нейронов, которые отвечают за обработку изображений. И в тех и в других изображение анализируется послойно, в каждом слое (биологических или компьютерных) нейронов выделяются всё более и более абстрактные черты. Интересно, что при этом в обоих случаях изображение остается плоским: даже те слои, что отвечают за распознавание трехмерных объектов, не строят их пространственных моделей, а руководствуются тем плоским паттерном признаков, что предоставляет нижележащий слой.

При очевидном сходстве архитектуры между биологическим и компьютерным зрением существуют и значительные отличия, поэтому не понятно, до какой степени слабые места одной системы будут совпадать со слабыми местами ее аналога. Чтобы выяснить ответ на этот вопрос, авторы статьи предложили сложное задание по распознаванию изображения людям-добровольцам и двум современным нейросетям (система Крижевского  и сеть Very Deep).

Задание заключалось в том, чтобы классифицировать предложенную картинку по четырем категориями: автомобиль, корабль, мотоцикл или животное. Добровольцам демонстрировали картику в течение всего 12,5 микросекунд, после чего надо было определить, что на ней изображено.

Сложность задания заключалась в том, что объекты, во-первых, находились на ярком неоднородном фоне, и, главное, были искажены одним из четырех способов: перемещением (например, автомобиль находился в разных частях кадра), масштабированием, поворотом в плоскости изображения и поворотом в пространстве (один и тот же объект был повернут в профиль, анфас, в три четверти и т. д.).

Оказалось, что и люди, и использовавшиеся в работе нейросети легче всего справляются с перемещением, затем с поворотом на плоскости. Еще хуже дается и тем и другим масштабирование, а наибольшие трудности вызывает поворот объектов в пространстве. «Это говорит о том» — заключают авторы, — «что люди распознают объекты прежде всего через сопоставление с двумерным шаблоном, а не путем конструкции трехмерных моделей в пространстве».

Ученые предлагают использовать общие с человеком слабости нейросетей для того, чтобы делать предварительный анализ изображения на их понятность живому зрителю. Кроме того, понимание этих слабостей может быть незаменимо для конструкции систем машинного зрения измененной архитектуры, которые не будут от этих слабостей страдать.

Интересно, что ранее ученые обнаружили у нейросетей другие слабости, которые, наоборот, для человеческого зрения не характерны. Речь идет о возможность специально создавать изображения, которые нейросеть легко принимает за то, что она обучена находить, но этим объектом не является. Для человека такие изображения выглядят почти неотличимо от белого шума.

Александр Ершов




Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.