Для этого пациентам с эпилепсией и электродами в мозге пришлось ее послушать
Ученые из США декодировали отрывок песни Pink Floyd из записей нейронной активности 29 человек. Они выяснили, что в обработке музыки сильнее задействовано правое полушарие, а основную роль играют верхние височные извилины. Работа опубликована в PLoS Biology.
Ученым уже удавалось восстановить разборчивую речь из инвазивных записей нейронной активности в слуховой и сенсомоторной коре, а вот с музыкой такого пока не проделывали. Частично сети восприятия музыки перекрываются с сетями обработки речи, однако некоторые области активируются именно во время прослушивания песен и музыки. Сегодня известно, где в мозге кодируются отдельные элементы музыки — тембр, высота звука, мелодия, ритм. Обработкой музыки занимается множество подкорковых и корковых областей, включая первичную и вторичную слуховую кору, сенсомоторные области и нижние лобные извилины.
Чтобы точнее определить, какими частями мозг воспринимает музыку, Людовик Белльер (Ludovic Bellier) из Калифорнийского университета и его коллеги использовали запись активности мозга 29 пациентов с эпилепсией (пациентам нередко вживляют электроды для борьбы с приступами), пока те слушали песню Another Brick in the Wall, Part 1 группы Pink Floyd. Затем исследователи реконструировали фрагмент песни из записей нейронной активности с разных электродов с помощью моделей декодирования на основе регрессии.
Нейронную активность 29 пациентов во время прослушивания песни регистрировали в общей сложности 2668 электродов, расположенные прямо на поверхности мозга. В правом полушарии доля электродов, реагирующих на песню, была выше: в нем ученые определили 148 значимых электродов из 900 (16,4 процента), а в левом — 199 из 1479 (13,5 процента). Большинство из 347 значимых электродов (87 процентов) были расположены в 3 областях: 68 процентов — в верхних височных извилинах, 14,4 процента — в сенсомоторной коре (в пре- и постцентральных извилинах), и 4,6 процента — в нижних лобных извилинах. Остальные 13 процентов значимых электродов располагались в супрамаргинальных извилинах и других лобных и височных областях.
За 80 процентов точности прогноза отвечало 43 (или 12,4 процента) электрода из 347. Нелинейное декодирование оказалось точнее линейного (средняя точность 0,429 против 0,325): песня была более узнаваема, отдельные элементы слышались четче, и даже можно было разобрать слова. Это было ожидаемо: с декодированием речи нелинейные модели тоже справляются лучше. Хотя спектрограммы исходной и декодированных с помощью разных моделей песен по большей части совпадали.
Ученые обнаружили, что моментам вступления соло-гитары или синтезатора соответствовала активность в задних частях верхних височных извилин. С задержкой активировались другие нейроны в задних и передних частях верхних височных извилин и в сенсомоторной коре. На фрагменты песни, содержащие вокал, сильнее реагировали нейроны в средней и передней частях верхних височных извилин и в сенсомоторной коре. Ритм считывался с электродов, расположенных в средней части верхних височных извилин.
Далее ученые провели анализ абляции с использованием моделей линейного декодирования. Они попробовали реконструировать песню из записей только некоторых электродов, чтобы выяснить, какие области мозга точнее всего кодируют музыку и содержат уникальную информацию о ней. Точность прогнозирования со всех 346 значимых электродов составила 0,62. Удаление данных всех правых или левых электродов сильно снижало точность прогноза — это значит, что для обработки и кодирования музыки необходимы оба полушария. Удаление только правых электродов снизило точность сильнее, чем удаление только левых, то есть часть информации, кодируемой левым полушарием, частично кодировалось и правым. Также точность значительно снизилась, когда удалили данные всех электродов с верхних височных извилин. А вот удаление данных электродов на сенсомоторной коре или на нижних лобных извилинах на точность прогноза не повлияло.
Ученые попробовали декодировать отрывок песни из записей 61 значимого электрода, расположенных на расстоянии 3 миллиметров друг от друга на коре одного пациента. Также они попытались восстановить отрывок из записей 23 и даже 10 электродов других пациентов, но качество всех полученных отрывков было хуже, и слова разобрать уже не получалось.
Недавно мы рассказывали о том, как ученым удалось декодировать тоновый язык с помощью многопоточной нейронной сети: она расшифровывала тона и слоги независимо.
Как нейросети обучаются на примерах
Мнение редакции может не совпадать с мнением автора
Редакция Nature включила в список 10 героев 2023 года Илью Суцкевера — одного из создателей ChatGPT. Чат-боту, который, по словам редакторов, может «открыть новую эру в науке», журнал отдал бонусное 11 место. В книге «Как устроен ChatGPT? Полное погружение в принципы работы и спектр возможностей самой известной нейросети в мире» (издательство «Манн, Иванов и Фербер»), переведенной на русский язык Еленой Быковой, математик Стивен Вольфрам рассказывает, что позволяет сервису, в основе которого лежит большая языковая модель, вести с пользователями беседы и генерировать тексты, которые вполне мог бы написать человек. Предлагаем вам ознакомиться с фрагментом о том, как обучаются нейронные сети.