Американские ученые представили Brain2Char — алгоритм, который переводит активность мозга при производстве речи в письменный текст. Система, основанная на работе нейросетей с долгой краткосрочной памятью и открытого декодера, обучена на данных электрокортикографии, полученных при речевом производстве, и может переводить в текст даже беззвучную речь. Препринт статьи с описанием работы алгоритма опубликован на arXiv.
Современные технологии позволяют считывать активность головного мозга и синтезировать на ее основе другие сигналы, которые можно использовать для создания нейроинтерфейсов — например, для управления протезами. Подобные системы, в частности, используются для того, чтобы вернуть пациентам утерянную речь, и за последний год конкретно в это области был достигнут внушительный прогресс.
В январе этого года американским ученым удалось создать алгоритм, который декодирует активность аудиторной коры головного мозга при прослушивании цифр в речь: результат получился разборчивым в 86 процентах случаев. Позже другая группа ученых из Калифорнийского университета в Сан-Франциско под руководством Эдварда Ченга (Edward Chang) представила прототип инвазивного электрокортикографа, который считывает активность коры головного мозга в процессе производства речи и синтезирует на ее основе то, что было сказано.
В новой работе группа под руководством Ченга решила обучить алгоритм другой задаче — восстановлению текста на основе активности мозга при производстве речи. Схема работы алгоритма устроена следующим образом. В начале берутся данные электрокортикограммы, полученные при чтении текста: из регистрируемых потенциалов выделяются временные, пространственные и частотные характеристики сигнала. Полученный при речевом производстве звук, в свою очередь, декодируется в письменный текст с помощью открытого алгоритма DeepSpeech, основанного на сверточных нейросетях, — также по временным и пространственным характеристикам (по данным спектрограммы). Энкодер, который воссоздает характеристики текста из активности мозга, в свою очередь, основан на работе двух двунаправленных рекуррентных нейросетей с долгой краткосрочной памятью (или LSTM). Кроме того, в алгоритме также есть регуляционная сеть, которая позволяет «чистить» полученный текст на основе данных об артикуляционных особенностях производства отдельных звуков, а также их фонетических характеристик, а также избавляет электрокортикограмму от артефактов.
Для обучения алгоритма использовали данные, полученные от четырех пациентов, в мозг которых был вживлен электрокортикограф: активность их мозга записывалась во время чтения 450 предложений на основе словаря из 1900 слов (двое пациентов) и описания картинок на основе словаря из 400 или 1200 слов.
Для тренировки использовали активность мозга трех пациентов: им необходимо было читать предложения, на основе которых затем алгоритм выводил текст. Величина ошибки (Word Error Rate — метрика, которая используется для оценки работы систем распознавания речи) в работе алгоритма для каждого участника составила 10,6, 8,5 и 7 процента соответственно в зависимости от величины словаря. При производстве беззвучной речи (только с артикуляцией) двумя пациентами Word Error Rate составляла 40 и 67 процентов.
Авторам, таким образом, удалось достичь качественной работы нейроинтерфейса по переводу мозговой активности речевого производства в письменную речь. Интересно, что сравнительно хорошая производительность алгоритма достигается и при беззвучном производстве речи — в будущем это может помочь создать нейроинтерфейсы для немых людей.
В середине лета компания Илона Маска Neuralink представила свой инвазивный нейроинтерфейс, электроды которого расположены на тонких (диаметром от четырех до шести микрометров) нитях. По-видимому, такое устройство будет использоваться для управления протезами после ампутации конечностей.
Елизавета Ивтушок