Ученые сравнили, на что обращают внимание роботы и люди, когда изучают фотографию, и оказалось, что они фокусируются на разных деталях изображения. С работой можно ознакомиться на сервере препринтов ArXiv.
Исследователи попросили добровольцев, нанятых через сервис Amazon Mechanical Turk ответить на вопросы, касающиеся набора фотографий, — например, «Что делает мужчина?» или «Какого цвета глаза у кошки?». Каждый снимок был размыт и участники исследования должны были кликать мышкой на ту область, которую они хотели сделать резкой. Карта этих кликов показывала, на какие части изображения люди обращают внимание в первую очередь, чтобы ответить на вопрос.
Затем авторы работы дали такое же задание двум нейросетям — нейросети
, которая построена на базе светрочной и рекуррентной нейросети и может отвечать на вопросы, и HieCoAtt-P, которая может также понимать вопросы в языковой форме. Нейросети, как и люди, выбирали, какие части изображения сделать более четкими, а ученые составляли из этих данных «карту внимания».
Исследователи обнаружили, что человек и искусственный интеллект по-разному изучают фотографии. По шкале от 1 (что значило, что снимок был сделан полностью резким) до −1 (никакого увеличения резкости) люди получили средний балл 0,63, в то время как нейросети «заработали» всего около 0,26 баллов. При этом, они достаточно хорошо справились с заданием (точность распознавания 62,1 процент).
Кроме того, нейросети смотрели не на те же области фотографий, что и люди, что, по словам ученых, затрудняет объяснение того, как именно искусственный интеллект решает, что показано на снимке.
По мнению исследователей, данная работа поможет ученым, работающим с нейросетями, улучшить их работу и сделать их в некоторых смыслах более «человекоподобными».