Машинное обучение помогло определить возраст ребенка по движению глаз

Елизавета Ивтушок

Американские ученые научили сверточную нейросеть определять возраст ребенка (1,5 или 2,5 года) по анализу движений глаз, когда он смотрит на картинку. В статье, опубликованной в Scientific Reports, также говорится, что использованный метод помог ученым выяснить, на какие именно детали обращают внимание дети.

Долгое время считалось, что распределение внимания при просмотре сцен действительности и визуальном поиске напрямую зависит от его выделенности — то есть того, насколько хорошо объект можно выделить на общем фоне. Недавние работы, однако, показывают, что зрительное внимание в первую очередь распределяется в сторону тех объектов, которые выделяются семантически, то есть имеют смысл. На деле же распределение внимания зависит и от тех, и от других факторов: внешние признаки (выделенность) способствуют распределению восходящего (bottom-up) внимания, а наличие у картинки смысла для наблюдателя — распределению внимания нисходящего (top-down).

Выделить вовлеченность тех или иных признаков в визуальный поиск можно при помощи экспериментов с использованием айтрекера и четко установленного задания: например, в классических экспериментах по распределению визуального внимания часто используется детская книжка-головоломка «Где Уолли?». Сделать этого, однако, очень сложно, когда в экспериментах участвуют маленькие дети, поэтому подобные исследования достаточно редки. В новой работе ученые под руководством Кирстен Далримпл (Kirsten Dalrymple) из Университета Миннесоты решили объединить эмпирические данные о внимании маленьких детей с машинным обучением и на основе этого выделить ряд факторов, регулирующих внимание при визуальном поиске.

В их эксперименте приняли участие 19 полуторагодовалых детей и 22 ребенка в возрасте 2,5 года. Каждому из них в течение трех секунд показывали изображения различных сцен (например, рабочего стола или веранды), а движения глаз регистрировали с помощью носимого айтрекера. Для каждой возрастной группы и каждого изображения ученые составили тепловые карты фиксаций — то есть выделили те места, которые (относительно того, как долго на них смотрели) привлекали внимание участников больше всего.

Далее отобранные области интереса для каждой возрастной группы проанализировали с помощью классификатора, основанного на методе опорных векторов. Всего ученые выделили пять значимых категорий, под которые попадали свойства объектов, на которых фиксировались участники: пиксельные признаки (например, цвет), базовые (например, размер) и семантические (например, игрушки или люди) признаки объектов, а также распределение внимания в центр и на фон изображения. На этих признаках обучили сверточную нейросеть: ее главной целью было определить по примеру распределения внимания на изображении возраст ребенка, который на него смотрит.

Нейросеть смогла правильно определить возраст ребенка по тому, как он смотрит на изображение, в 83 процентах случаев. Среди важных семантических аспектов изображения ученые выделили лицо для детей в возрасте 1,5 года и объекты, к которым прикасаются, — для детей, которым было 2,5 года.

Ученые, таким образом, показали, что машинное обучение вкупе с данными, полученными с айтрекера, — удобный и достоверный инструмент, который позволяет выделять и анализировать аспекты изображений при распределении внимания.

В поведенческих экспериментах принимают участие и дети помладше: например, здесь вы можете прочитать об эксперименте, с помощью которого ученые выяснили, что выделять слова в речи могут и трехлетние дети.

Елизавета Ивтушок