Нейросеть распознала прослушиваемую песню по активности мозга

Григорий Копиев

Исследователи из Индии и Нидерландов показали, что песню, которую слушает человек, можно определить по активности его мозга. Они провели эксперимент, во время которого предварительно обученный алгоритм получал небольшие фрагменты электроэнцефалограммы человека, слушающего музыку, и с точностью 85 процентов определял конкретную песню, звучащую в наушниках. Статья была представлена на конференции CODS COMAD 2021, а ее препринт доступен на arXiv.org.

Песня представляет собой последовательность данных, которую в свою очередь можно описать как набор последовательностей: ударов барабанов и тарелок, аккордов гитары и так далее. Таким образом, даже если в данных будут искажения, например, громкие шумы на фоне, песню все равно можно распознать по характерным последовательностям. Благодаря этому мы, а с недавнего времени и компьютеры, можем узнать песню даже в измененном виде — напетом или даже насвистанном.

При получении органами чувств стимула в мозге возникает соответствующая активность, причем специфичная для разных его отделов. Ученые под руководством Дерека Ломаса (Derek Lomas) из Делфтского технического университета решили проверить, можно ли использовать последовательность активности мозга для восстановления последовательности входящих стимулов, в данном случае — музыкальных композиций. Они использовали для сбора данных электоэнцефалографический шлем с 128 электродами.

Изначально исследователи разбивали данные с ЭЭГ на фрагменты или «окна» продолжительностью в секунду и получали матрицы типа «электрод — активность за промежуток времени». Затем они преобразовали исходные сигналы из временной в частотную область с помощью функции spectopo из пакета EEGLAB. Она рассчитывает амплитуду каждого частотного компонента данных односекундного окна. В результате авторы получили спектр сигнала ЭЭГ с размерностью 126 на 128, который удобно использовать для дальнейшего анализа. После предварительной обработки данные подаются сначала на трехслойную сверточную нейросеть для выделения признаков, а затем на двухслойную плотную нейросеть для классификации песен.

Для сбора датасета ученые пригласили 20 добровольцев. Каждый из них поочередно с перерывами слушал 12 песен с закрытыми глазами в комнате со слабым освещением (чтобы минимизировать влияние других органов чувств). Нейросеть обучили на этих данных и проверили результаты. Точность распознавания оказалась равной 84,96 процента. При этом алгоритм работал только с данными для конкретного человека. При распознавании песен по данным разных людей точность упала до 7,73 процента.

Активность мозга также нередко используют для распознавания речи — собственной или прослушиваемой.

Григорий Копиев