Американские ученые научили сверточную нейросеть определять возраст ребенка (1,5 или 2,5 года) по анализу движений глаз, когда он смотрит на картинку. В статье, опубликованной в Scientific Reports, также говорится, что использованный метод помог ученым выяснить, на какие именно детали обращают внимание дети.
Долгое время считалось, что распределение внимания при просмотре сцен действительности и визуальном поиске напрямую зависит от его выделенности — то есть того, насколько хорошо объект можно выделить на общем фоне. Недавние работы, однако, показывают, что зрительное внимание в первую очередь распределяется в сторону тех объектов, которые выделяются семантически, то есть имеют смысл. На деле же распределение внимания зависит и от тех, и от других факторов: внешние признаки (выделенность) способствуют распределению восходящего (bottom-up) внимания, а наличие у картинки смысла для наблюдателя — распределению внимания нисходящего (top-down).
Выделить вовлеченность тех или иных признаков в визуальный поиск можно при помощи экспериментов с использованием айтрекера и четко установленного задания: например, в классических экспериментах по распределению визуального внимания часто используется детская книжка-головоломка «Где Уолли?». Сделать этого, однако, очень сложно, когда в экспериментах участвуют маленькие дети, поэтому подобные исследования достаточно редки. В новой работе ученые под руководством Кирстен Далримпл (Kirsten Dalrymple) из Университета Миннесоты решили объединить эмпирические данные о внимании маленьких детей с машинным обучением и на основе этого выделить ряд факторов, регулирующих внимание при визуальном поиске.
В их эксперименте приняли участие 19 полуторагодовалых детей и 22 ребенка в возрасте 2,5 года. Каждому из них в течение трех секунд показывали изображения различных сцен (например, рабочего стола или веранды), а движения глаз регистрировали с помощью носимого айтрекера. Для каждой возрастной группы и каждого изображения ученые составили тепловые карты фиксаций — то есть выделили те места, которые (относительно того, как долго на них смотрели) привлекали внимание участников больше всего.
Далее отобранные области интереса для каждой возрастной группы проанализировали с помощью классификатора, основанного на методе опорных векторов. Всего ученые выделили пять значимых категорий, под которые попадали свойства объектов, на которых фиксировались участники: пиксельные признаки (например, цвет), базовые (например, размер) и семантические (например, игрушки или люди) признаки объектов, а также распределение внимания в центр и на фон изображения. На этих признаках обучили сверточную нейросеть: ее главной целью было определить по примеру распределения внимания на изображении возраст ребенка, который на него смотрит.
Нейросеть смогла правильно определить возраст ребенка по тому, как он смотрит на изображение, в 83 процентах случаев. Среди важных семантических аспектов изображения ученые выделили лицо для детей в возрасте 1,5 года и объекты, к которым прикасаются, — для детей, которым было 2,5 года.
Ученые, таким образом, показали, что машинное обучение вкупе с данными, полученными с айтрекера, — удобный и достоверный инструмент, который позволяет выделять и анализировать аспекты изображений при распределении внимания.
В поведенческих экспериментах принимают участие и дети помладше: например, здесь вы можете прочитать об эксперименте, с помощью которого ученые выяснили, что выделять слова в речи могут и трехлетние дети.
Елизавета Ивтушок