Компьютер научили воссоздавать изображения из мозговой активности

Елизавета Ивтушок

Японские исследователи создали нейросеть, которая умеет реконструировать изображения предметов на основе данных о мозговой активности людей, которые на них смотрят. Такая нейросеть успешно реконструирует буквы, геометрические фигуры и даже изображения животных и предметов, сообщается в препринте, опубликованном на bioRxiv.

Возможность «чтения» человеческих мыслей привлекает ученых достаточно давно, а единственный реальный способ ее достижения — расшифровка паттернов активности головного мозга. Использование для этой цели данных функциональной магнитно-резонансной томографии (фМРТ) является наиболее эффективным: такой метод позволяет визуализировать мозговую активность с наибольшим пространственным разрешением, то есть локализовать ее с максимальной точностью. Например, еще в 2016 году ученым удалось воссоздать изображение лица из воспоминаний человека, реконструировав его благодаря совмещению активности, связанной с определенными чертами.

Все существующие подходы, однако, имеют ряд ограничений: например, реконструирующая нейросеть может быть ограничена обучающей выборкой, то есть воссоздавать только отдельный ряд изображений, об особенностях которых ей известно. Кроме того, полученные изображения очень часто напоминают исходные только отчасти. Разработчики из Киотского университета под руководством Юкиасу Камитани (Yukiyasu Kamitani) представили новый алгоритм такой реконструкции — нейросеть, работающую благодаря методам глубокого обучения.

Такая нейросеть работает с помощью декодера паттернов изображения в мозговой активности. Она была обучена на парах «изображение-активность», полученных в ходе эксперимента, участников которого просили рассмотреть 1200 изображений (каждое изображение было просмотрено каждым из трех участников по пять раз). Алгоритм реконструкции, таким образом, работает благодаря попиксельному изменению случайного изображения таким образом, чтобы элементы изначального изображения совпадали с его же элементами, извлеченными из мозговой активности.

Помимо этого, разработчики также ввели в систему дополнительную нейросеть (DGN или deep generative network — глубокая генеративная нейросеть), которая позволяет сделать свойства полученного из мозговой активности изображения максимально похожими на свойства изначального изображения (например, цвет предмета).

В результате нейросеть смогла воссоздать изображения геометрических фигур, букв и даже целых предметов. Несмотря на то, что изображения предметов получились абстрактными, работа нейросети, по оценкам системы попиксельной корреляции исходного и полученного изображений, оказалась на 79,7 процента эффективна без дополнительной DGN и на 76,1 — с ее использованием. Человеческая оценка оказалась еще выше: люди правильно угадывали воссозданные изображения (а точнее — определяли пары исходного и полученного изображения) в 99,1 проценте случаев с DGN и в 96,5 — без нее (что означает, что применение дополнительной нейросети имеет смысл для улучшения восприятия людьми).

Несмотря на то, что эффективность новой нейросети оказалась достаточно высокой, работа над ее улучшением должна продолжаться далее: визуально лучшие результаты она показала при реконструировании простых форм и цифр, но не реальных объектов.

В прошлом году ученые впервые изучили мозговую активность человека при наблюдении за трехмерными образами: для этого участников фМРТ-эксперимента клали в сканер в 3D-очках.

Елизавета Ивтушок