Одна парализованная пациентка смогла «произносить» 62 слова в минуту, а другая — 78
Две команды ученых из США научили декодеры превращать сигналы мозга парализованных пациентов в текст в три-четыре раза быстрее, чем удавалось прежде. Статьи об этом [1, 2] опубликованы в Nature. Одни исследователи создали декодер, который переводил в текст беззвучную речь пациентки в текст со скоростью 62 слова в минуту, а вторая группа разработала немного другой интерфейс и перевела сигналы мозга не только в текст, но и в устную речь цифрового аватара и в его мимику. Их декодер генерировал текст со скоростью 78 слов в минуту. Предыдущий рекорд для подобных интерфейсов — 18 слов в минуту.
Речевые интерфейсы мозг-компьютер могут переводить нейронную активность мозга парализованных людей в текст или звук. Обычно для этого в мозг пациентов имплантируют электроды, которые получают сигналы от нейронов, когда человек пытается что-то произнести, думает о том, что хочет сказать (если произносить не может) или читает. Эти сигналы затем преобразовываются в текст с помощью нейросетей. Однако восстанавливать целые предложения — сложно, и обычно удается декодировать лишь отдельные слова и фразы, да и синтезируется такой текст медленнее, чем люди обычно говорят.
Две команды исследователей смогли улучшить работу таких декодеров. Ученые из Стэндфордского университета под руководством Фрэнсиса Уиллера (Francis R. Willer) декодировали речь пациентки с боковым амиотрофическим склерозом. Обычно боковой амиотрофический склероз начинается с разрушения нейронов спинного мозга и приводит к параличу конечностей, однако в редких случаях — как и в случае этой пациентки — первым поражается головной мозг. Женщина могла передвигаться, одеваться самостоятельно и печатать текст, однако не могла двигать челюстью и языком, чтобы говорить. Исследователи имплантировали в ее мозг четыре небольших датчика, в каждом из которых было 64 электрода.
Два датчика с электродами установили на поверхность мозга в область вентральной премоторной коры и два — в зону Брока, считающуюся ответственной за воспроизведение речи. Через месяц начали обучать программу, которая преобразовывает импульсы в текст. Женщина потратила около ста часов на то, чтобы пытаться произносить предложения — декодер (рекуррентная нейронная сеть) в это время превращал сигналы мозга в фонемы, а фонемы — в слова. Чтобы расшифровать любое английское слово, компьютер должен был освоить всего 39 фонем; это позволило ускорить работу интерфейса и сделать его точнее. Языковая модель помогала нейросети предсказывать каждое следующее слово в предложении.
Ученые обнаружили, что сигналы из зоны Брока практически не содержат информации об артикуляции. Это согласуется с некоторыми недавними исследованиями, ставящими под сомнение роль этой области в самом говорении [1, 2]. Однако в итоге декодер научился воссоздавать текст, используя сигналы из вентральной премоторной коры. И когда в словаре было лишь 50 слов, частота ошибок декодирования составляла 9,1 процента, когда женщина пыталась говорить вслух и 11,2 процента — когда она произносила предложения про себя. Когда словарь расширили до 125 тысяч слов, частота ошибок увеличилась до 23,8–24,7 процента. Декодер позволил женщине «произносить» 68 слов в минуту. Прошлый рекорд скорости декодированной речи — только 18 слов в минуту, а средний англоговорящий человек без речевых нарушений произносит около 160 слов в минуту.
Другая команда исследователей из Калифорнийского университета в Сан-Франциско во главе с Эдвардом Чаном (Edward F. Chang) помогли парализованной пациентке заговорить в прямом смысле — через цифровой аватар. Ученые имплантировали 253 электрода на речевую область сенсомоторной коры и на область верхней височной извилины женщины, которая перенесла инсульт и не могла говорить и даже печатать. Электроды получали те сигналы, которые в норме мозг отправляет к мышцам челюсти, губ и языка и вообще лица. Пациентка также несколько недель обучала рекуррентную нейронную сеть соотносить сигналы мозга с фразами, которые она хочет произнести. Для этого она раз за разом беззвучно произносила предложения из набора, состоящего из 1024 уникальных слов.
В результате декодер научился воспроизводить текст со скоростью 78 слов в минуту. Ошибки возникали в 25 процентах случаев. Затем ученые использовали запись голоса пациентки, чтобы научить нейросеть говорить ее голосом. Также ученые создали цифровой аватар пациентки и заставили его лицо двигаться во время произношения синтезированной речи благодаря модели, которая преобразовывала акустические сигналы в артикуляционные движения. Также аватар научили имитировать эмоции: для этого пациентка пыталась воспроизвести счастливое, удивленное и грустное выражения лица, а электроды считывали активность нейронов и передавали ее декодеру. Это еще сильнее приблизило синтезированную речь к естественной, хотя аватар говорил не так быстро.
До широкого внедрения таких нейроинтерфейсов в жизнь парализованных пациентов еще далеко: сначала необходимо сократить время обучения декодера, увеличить точность расшифровки (для этого, полагают ученые, нужно увеличить количество электродов) и убедиться, что имплантированные электроды будут работать как надо в течение долгого времени и что интерфейсами могут пользоваться пациенты с разными диагнозами. Также ученые хотят избавить нейроинтерфейс от проводов, чтобы пациенту не требовалось подключаться к стационарному компьютеру для синтеза речи.
Недавно ученым удалось восстановить из нейронной активности кусочек песни Pink Floyd, который слушали испытуемые с электродами в мозге. А еще раньше декодер смог пересказать сюжет видеороликов, которые люди смотрели, — тогда не понадобились даже имплантаты, хватило фМРТ. Музыка и тексты были не очень точными, но что-то расшифровать получилось.
Спутники обеспечат сотовой связью удаленные регионы планеты
SpaceX завершила развертывание на орбите первой спутниковой группировки Starlink, предназначенной для обеспечения сотовой связью удаленных регионов Земли. Спутники способны поддерживать прямую двустороннюю связь с немодифицированными LTE-телефонами, обеспечивая скорость обмена данными до 10 мегабит в секунду, сообщает New Atlas.