Одна парализованная пациентка смогла «произносить» 62 слова в минуту, а другая — 78
Две команды ученых из США научили декодеры превращать сигналы мозга парализованных пациентов в текст в три-четыре раза быстрее, чем удавалось прежде. Статьи об этом [1, 2] опубликованы в Nature. Одни исследователи создали декодер, который переводил в текст беззвучную речь пациентки в текст со скоростью 62 слова в минуту, а вторая группа разработала немного другой интерфейс и перевела сигналы мозга не только в текст, но и в устную речь цифрового аватара и в его мимику. Их декодер генерировал текст со скоростью 78 слов в минуту. Предыдущий рекорд для подобных интерфейсов — 18 слов в минуту.
Речевые интерфейсы мозг-компьютер могут переводить нейронную активность мозга парализованных людей в текст или звук. Обычно для этого в мозг пациентов имплантируют электроды, которые получают сигналы от нейронов, когда человек пытается что-то произнести, думает о том, что хочет сказать (если произносить не может) или читает. Эти сигналы затем преобразовываются в текст с помощью нейросетей. Однако восстанавливать целые предложения — сложно, и обычно удается декодировать лишь отдельные слова и фразы, да и синтезируется такой текст медленнее, чем люди обычно говорят.
Две команды исследователей смогли улучшить работу таких декодеров. Ученые из Стэндфордского университета под руководством Фрэнсиса Уиллера (Francis R. Willer) декодировали речь пациентки с боковым амиотрофическим склерозом. Обычно боковой амиотрофический склероз начинается с разрушения нейронов спинного мозга и приводит к параличу конечностей, однако в редких случаях — как и в случае этой пациентки — первым поражается головной мозг. Женщина могла передвигаться, одеваться самостоятельно и печатать текст, однако не могла двигать челюстью и языком, чтобы говорить. Исследователи имплантировали в ее мозг четыре небольших датчика, в каждом из которых было 64 электрода.
Два датчика с электродами установили на поверхность мозга в область вентральной премоторной коры и два — в зону Брока, считающуюся ответственной за воспроизведение речи. Через месяц начали обучать программу, которая преобразовывает импульсы в текст. Женщина потратила около ста часов на то, чтобы пытаться произносить предложения — декодер (рекуррентная нейронная сеть) в это время превращал сигналы мозга в фонемы, а фонемы — в слова. Чтобы расшифровать любое английское слово, компьютер должен был освоить всего 39 фонем; это позволило ускорить работу интерфейса и сделать его точнее. Языковая модель помогала нейросети предсказывать каждое следующее слово в предложении.
Ученые обнаружили, что сигналы из зоны Брока практически не содержат информации об артикуляции. Это согласуется с некоторыми недавними исследованиями, ставящими под сомнение роль этой области в самом говорении [1, 2]. Однако в итоге декодер научился воссоздавать текст, используя сигналы из вентральной премоторной коры. И когда в словаре было лишь 50 слов, частота ошибок декодирования составляла 9,1 процента, когда женщина пыталась говорить вслух и 11,2 процента — когда она произносила предложения про себя. Когда словарь расширили до 125 тысяч слов, частота ошибок увеличилась до 23,8–24,7 процента. Декодер позволил женщине «произносить» 68 слов в минуту. Прошлый рекорд скорости декодированной речи — только 18 слов в минуту, а средний англоговорящий человек без речевых нарушений произносит около 160 слов в минуту.
Другая команда исследователей из Калифорнийского университета в Сан-Франциско во главе с Эдвардом Чаном (Edward F. Chang) помогли парализованной пациентке заговорить в прямом смысле — через цифровой аватар. Ученые имплантировали 253 электрода на речевую область сенсомоторной коры и на область верхней височной извилины женщины, которая перенесла инсульт и не могла говорить и даже печатать. Электроды получали те сигналы, которые в норме мозг отправляет к мышцам челюсти, губ и языка и вообще лица. Пациентка также несколько недель обучала рекуррентную нейронную сеть соотносить сигналы мозга с фразами, которые она хочет произнести. Для этого она раз за разом беззвучно произносила предложения из набора, состоящего из 1024 уникальных слов.
В результате декодер научился воспроизводить текст со скоростью 78 слов в минуту. Ошибки возникали в 25 процентах случаев. Затем ученые использовали запись голоса пациентки, чтобы научить нейросеть говорить ее голосом. Также ученые создали цифровой аватар пациентки и заставили его лицо двигаться во время произношения синтезированной речи благодаря модели, которая преобразовывала акустические сигналы в артикуляционные движения. Также аватар научили имитировать эмоции: для этого пациентка пыталась воспроизвести счастливое, удивленное и грустное выражения лица, а электроды считывали активность нейронов и передавали ее декодеру. Это еще сильнее приблизило синтезированную речь к естественной, хотя аватар говорил не так быстро.
До широкого внедрения таких нейроинтерфейсов в жизнь парализованных пациентов еще далеко: сначала необходимо сократить время обучения декодера, увеличить точность расшифровки (для этого, полагают ученые, нужно увеличить количество электродов) и убедиться, что имплантированные электроды будут работать как надо в течение долгого времени и что интерфейсами могут пользоваться пациенты с разными диагнозами. Также ученые хотят избавить нейроинтерфейс от проводов, чтобы пациенту не требовалось подключаться к стационарному компьютеру для синтеза речи.
Недавно ученым удалось восстановить из нейронной активности кусочек песни Pink Floyd, который слушали испытуемые с электродами в мозге. А еще раньше декодер смог пересказать сюжет видеороликов, которые люди смотрели, — тогда не понадобились даже имплантаты, хватило фМРТ. Музыка и тексты были не очень точными, но что-то расшифровать получилось.