Американским ученым удалось обучить алгоритм воссоздавать речь из мозговой активности человека при ее прослушивании. Для этого они использовали активность аудиторной коры, полученной с помощью электродов, вживленных в мозг пациентов с эпилепсией, при прослушивании отдельных цифр, а затем синтезировали на ее основе короткие фразы. Получившаяся речь оказалась разборчивой в 75 процентах случаев. Статья с исследованием опубликована в Scientific Reports.
Современные нейрокомпьютерные интерфейсы помогают восстанавливать потерянную связь между мозгом и другими органами человеческого тела: например, в результате инсульта конечности человека могут быть парализованы, но считывание активности мозга человека может помочь ему пользоваться планшетом. Также подобные интерфейсы разрабатываются для частичного восстановления зрения.
Создание нейрокомпьютерных интерфейсов, которые бы могли воссоздавать из мозговой активности речь, также важно, так как может позволить общаться с людьми с так называемым «синдромом запертого человека», при котором тело оказывается полностью парализованным. Уже существующие технологии, которые позволяют синтезировать речь из активности мозга, не очень эффективны, так как получившийся звук остается неразборчивым.
В новой работе ученые из Колумбийского университета (Нью-Йорк) под руководством Хассана Акбари (Hassan Akbari) решили использовать активность мозга, полученную при прослушивании речи, для ее дальнейшего синтеза в произнесенный текст. В их исследовании приняли участие пять пациентов с эпилепсией, которых готовили к операции: для мониторинга приступов в их головной мозг вживили электроды. Активность их головного мозга, таким образом, ученые записывали с помощью инвазивной электрокортикографии. У двух пациентов электроды были вживлены в верхнюю височную извилину, а у остальных трех — в область поперечной височной извилины (извилины Хершеля). И тот, и другой участок головного мозга участвуют в процессе распознавания речи.
Во время эксперимента участники в течение 30 минут слушали короткие рассказы. Полученные записи мозговой активности затем разделили на куски по 300 миллисекунд и соотнесли из с теми звуками, которые слышал каждый участник в момент активности. Эти данные использовали для обучения четырех моделей, основанных на простой нейросети с линейной регрессией и глубокой нейросети. Модели были основаны либо на воссоздании простой спектрограммы звука с последующим синтезом речи, либо на вокодере, который для синтеза речи, помимо спектрограммы, также использует несколько дополнительных параметров, включая временные и пространственные характеристики голоса говорящего.
Для тестирования полученных моделей ученые затем использовали активность мозга, которую получили, когда участники прослушивали набор из прослушанных цифр от 0 до 10. Самой эффективной оказалась модель, основанная на глубокой нейросети с вокодером: получившиеся записи синтезированного звука дали послушать добровольцам, которые посчитали реконструированные звуки не только самыми разборчивыми (им удалось правильно распознать 75 процентов всех произнесенных цифр), но и также самыми качественными; также им удалось правильно распознать пол говорящего в 80 процентах случаев.
Ученые также уточнили, что эффективность полученных моделей возрастала с увеличением количества использованных для получения мозговой активности электродов и длительности аудио в тестовой выборке.
Активность мозга при прослушивании и производстве речи очень похожа: исследования показывают, что при прослушивании речи, сказанной кем-то, и при «воображаемом» прослушивании (то есть прослушивании собственных мыслей) активны одни и те же участки мозга. Созданная модель, таким образом, может быть полезна не только для реконструкции сказанного из услышанного, но и для синтеза речи из того, что человек думает. Это, в свою очередь, и поможет людям, утратившим способность воспроизводить речь, «говорить». Авторы работы уточняют, что разработанный ими алгоритм работает только для участников эксперимента, причем для каждого — индивидуально; к тому же для правильной работы такого алгоритма пришлось использовать много данных мозговой активности, получить которые не так просто, учитывая инвазивность использованного метода.
В прошлом году японские исследователи обучили нейросеть похожей задаче: их алгоритм умеет воссоздавать изображения из мозговой активности человека, который на них смотрит.
Елизавета Ивтушок
И сделала это быстрее
Нейросеть, созданная для расчета фракции выброса левого желудочка, в слепом исследовании показала меньше ошибок по сравнению с ручным подсчетом специалистами по ультразвуковой диагностике. Кроме того, алгоритм сделал это на две с лишним минуты быстрее человека. Исследование опубликовано в журнале Nature.