Кусочек песни Pink Floyd декодировали по активности мозга

Для этого пациентам с эпилепсией и электродами в мозге пришлось ее послушать

Ученые из США декодировали отрывок песни Pink Floyd из записей нейронной активности 29 человек. Они выяснили, что в обработке музыки сильнее задействовано правое полушарие, а основную роль играют верхние височные извилины. Работа опубликована в PLoS Biology.

Ученым уже удавалось восстановить разборчивую речь из инвазивных записей нейронной активности в слуховой и сенсомоторной коре, а вот с музыкой такого пока не проделывали. Частично сети восприятия музыки перекрываются с сетями обработки речи, однако некоторые области активируются именно во время прослушивания песен и музыки. Сегодня известно, где в мозге кодируются отдельные элементы музыки — тембр, высота звука, мелодия, ритм. Обработкой музыки занимается множество подкорковых и корковых областей, включая первичную и вторичную слуховую кору, сенсомоторные области и нижние лобные извилины.

Чтобы точнее определить, какими частями мозг воспринимает музыку, Людовик Белльер (Ludovic Bellier) из Калифорнийского университета и его коллеги использовали запись активности мозга 29 пациентов с эпилепсией (пациентам нередко вживляют электроды для борьбы с приступами), пока те слушали песню Another Brick in the Wall, Part 1 группы Pink Floyd. Затем исследователи реконструировали фрагмент песни из записей нейронной активности с разных электродов с помощью моделей декодирования на основе регрессии.

Отрывок оригинальной песни, преобразованный в спектрограмму и обратно

Нейронную активность 29 пациентов во время прослушивания песни регистрировали в общей сложности 2668 электродов, расположенные прямо на поверхности мозга. В правом полушарии доля электродов, реагирующих на песню, была выше: в нем ученые определили 148 значимых электродов из 900 (16,4 процента), а в левом — 199 из 1479 (13,5 процента). Большинство из 347 значимых электродов (87 процентов) были расположены в 3 областях: 68 процентов — в верхних височных извилинах, 14,4 процента — в сенсомоторной коре (в пре- и постцентральных извилинах), и 4,6 процента — в нижних лобных извилинах. Остальные 13 процентов значимых электродов располагались в супрамаргинальных извилинах и других лобных и височных областях.

За 80 процентов точности прогноза отвечало 43 (или 12,4 процента) электрода из 347. Нелинейное декодирование оказалось точнее линейного (средняя точность 0,429 против 0,325): песня была более узнаваема, отдельные элементы слышались четче, и даже можно было разобрать слова. Это было ожидаемо: с декодированием речи нелинейные модели тоже справляются лучше. Хотя спектрограммы исходной и декодированных с помощью разных моделей песен по большей части совпадали.

Отрывок, реконструированный со всех 347 электродов с помощью линейных моделей
Отрывок, реконструированный со всех 347 электродов с помощью нелинейных моделей

Ученые обнаружили, что моментам вступления соло-гитары или синтезатора соответствовала активность в задних частях верхних височных извилин. С задержкой активировались другие нейроны в задних и передних частях верхних височных извилин и в сенсомоторной коре. На фрагменты песни, содержащие вокал, сильнее реагировали нейроны в средней и передней частях верхних височных извилин и в сенсомоторной коре. Ритм считывался с электродов, расположенных в средней части верхних височных извилин.

Далее ученые провели анализ абляции с использованием моделей линейного декодирования. Они попробовали реконструировать песню из записей только некоторых электродов, чтобы выяснить, какие области мозга точнее всего кодируют музыку и содержат уникальную информацию о ней. Точность прогнозирования со всех 346 значимых электродов составила 0,62. Удаление данных всех правых или левых электродов сильно снижало точность прогноза — это значит, что для обработки и кодирования музыки необходимы оба полушария. Удаление только правых электродов снизило точность сильнее, чем удаление только левых, то есть часть информации, кодируемой левым полушарием, частично кодировалось и правым. Также точность значительно снизилась, когда удалили данные всех электродов с верхних височных извилин. А вот удаление данных электродов на сенсомоторной коре или на нижних лобных извилинах на точность прогноза не повлияло.

Ученые попробовали декодировать отрывок песни из записей 61 значимого электрода, расположенных на расстоянии 3 миллиметров друг от друга на коре одного пациента. Также они попытались восстановить отрывок из записей 23 и даже 10 электродов других пациентов, но качество всех полученных отрывков было хуже, и слова разобрать уже не получалось.

61 электрод
23 электрода

Недавно мы рассказывали о том, как ученым удалось декодировать тоновый язык с помощью многопоточной нейронной сети: она расшифровывала тона и слоги независимо.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Эй, AI

Пять причин посетить онлайн-конференцию AI Journey 2023