Ученые воспроизвели беззвучную речь по активности мозга

Американские ученые и инженеры разработали прототип инвазивного устройства-декодера, позволяющего синтезировать речь по активности мозга при движении органов речевого тракта — причем в одном эксперименте им удалось воспроизвести беззвучную речь, хотя и с потерей качества. В будущем на основе этого прототипа можно будет создавать новые нейрокомпьютерные интерфейсы, говорится в статье, опубликованной в журнале Nature.

Нейрокомпьютерные интерфейсы позволяют считывать и обрабатывать данные об активности головного мозга, они, среди прочего, применяются для помощи пациентам с потерей речи, но пока им доступны в основном приборы, позволяющие управлять курсором с помощью движений головы или глаз, которые работают достаточно медленно по сравнению с обычной речью. В начале года в Scientific Reports вышла статья, авторам которой удалось обучить алгоритм воссоздавать речь из мозговой активности человека при ее прослушивании. Для этого они использовали активность аудиторной коры, полученной с помощью электродов, вживленных в мозг пациентов с эпилепсией, при прослушивании отдельных цифр, а затем синтезировали на ее основе короткие фразы. Получившаяся речь оказалась разборчивой в 75 процентах случаев.

Группа под руководством Эдварда Ченга (Edward Chang) из Калифорнийского университета в Сан-Франциско предложила свой метод синтеза речи по мозговой активности при движении челюсти, гортани, губ и языка. По их словам, этот двухэтапный метод (распознавания активности мозга, связанной с движением органов речи, и трансформации этих сигналов в слова) сейчас позволяет точнее синтезировать речь, чем если бы добровольцы, к примеру, думали о заданных словах или даже просто предметах, хотя такие методы тоже интересуют ученых.

Сначала исследователи с помощью электрокортикографа записывали сигналы коры головного мозга у пятерых свободно говорящих добровольцев с эпилепсией, которые произносили вслух несколько сотен предложений. Эти предложения были специально подобраны так, чтобы воспроизводить весь спектр типичной для английского языка активности речевого тракта. При этом авторы исследования считают, что их прототип вполне сможет работать и с другими языками при предварительном обучении на соответствующем языковом материале.

Они обучили одну рекуррентную нейронную сеть распознавать в активности вентральной сенсомоторной коры, верхней височной извилины и нижней лобной извилины элементы движения речевого тракта, а вторую сеть — распознавать в них акустические параметры речи, исходя из которых она затем синтезировалась. 

В эксперименте со 101 предложением несколько сотен слушателей с платформы Amazon Mechanical Turk пытались распознавать и транскрибировать синтезированную речь, выбирая слова из предложенных: в длинной версии эксперимента на 82 предложениях 43 процента участников добились абсолютного результата, транскрибировав все слова верно, а в короткой, с 60 предложениями (где слов на выбор было больше) таковых был 21 процент. Особенно хорошо распознавались фрикативные звуки, а взрывные звуки типа [b], напротив, передавались не очень удачно. Типичный нейрокомпьютерный интерфейс позволяет синтезировать примерно 5-10 слов в минуту в зависимости от скорости набора текста, тогда как прототип ученых работает на привычной скорости речи в 120-150 слов в минуту для английского языка.

В отдельном эксперименте один человек сначала произносил по одному из 58 предложений, а затем повторял те же движения речевого аппарата, но без звука. Ученым удалось синтезировать речь и на основе сигналов от «немых» движений, хотя ее качество было хуже. На телефонном пресс-брифинге Ченг, в частности, отметил, что в будущем они видят работу нейрокомпьютерного интерфейса на основе их прототипа именно так: человек активно пытается произнести слова — даже если он, к примеру, парализован, мозг все равно отправляет соответствующие сигналы органам речевого тракта — и машина, обученная на активности чужого мозга, синтезирует речь. При этом Чанг подчеркнул, что речь идет только о распознавании устной речи, но не мысленной, то есть внутренней речи, как бы интенсивно человек ни думал о словах.

Помимо совершенствования самого алгоритма распознавания и синтезирования речи, ученые планируют продолжить работу, на этот раз с людьми, имеющими приобретенные проблемы с речью и, возможно, даже никогда не говоривших по медицинским причинам — однако Ченг затруднился сказать, сколько времени пройдет до момента клинических испытаний системы или тем более до внедрения ее в медицинскую практику. Испытания на людях с проблемами речи, по его словам, еще не начались. Кроме того, сейчас работа прототипа требует хирургического вмешательства для размещения датчиков на коре мозга, и, по словам Ченга, неинвазивных инструментов такой точности пока нет.

Инвазивные интерфейсы могут помогать людям в разных задачах: так, американские ученые разработали нейроинтерфейс, который позволяет парализованным людям пользоваться планшетом. Такой интерфейс передает сигнал от вживленных в моторную кору электродов к планшету через Bluetooth, управляя курсором. Участникам эксперимента удалось с помощью него сделать покупки, пообщаться в мессенджере и воспользоваться калькулятором. Кроме того, для реабилитации дисфункций конечностей парализованных пациентов используют и неинвазивные методы, например, электроэнцефалографию. В прошлом году с помощью этого метода, к примеру, удалось за девять недель тренировок на 36 процентов улучшить работу парализованной в следствие инсульта руки у пациента.

Ольга Добровидова