Неинвазивный интерфейс воспроизвел набираемый на клавиатуре текст по сигналам мозга

Средняя частота ошибок составила 29 процентов

Андрей Фокин

Французские исследователи разработали неинвазивный интерфейс для декодирования набираемого на клавиатуре текста по активности головного мозга. Для сбора используется магнитоэнцефалография и электроэнцефалография. За преобразование сигналов головного мозга в последовательности символов отвечает созданная исследователями нейросетевая модель Brain2Qwerty. Лучшие результаты получились при использовании магнитоэнцефалографии. Средняя частота ошибок в символах при использовании этого метода оказалась на уровне 29 процентов, против 65 процентов у ЭЭГ. Статья с результатами опубликована в журнале Nature Neuroscience.

В последние годы интерфейсы «мозг-компьютер» совершили огромный скачок в развитии. Эти устройства позволяют вернуть людям с тяжелыми формами паралича и боковым амиотрофическим склерозом способность общаться. Нейроинтерфейсы считывают активность моторной коры головного мозга и переводят ее в текст со скоростью, приближающейся к уровню обычной речи. Однако самые эффективные из них требует хирургического вмешательства для имплантации электродов прямо в ткани мозга. Подобные операции могут быть опасны для пациента, а поддержание работоспособности вживленных чипов на протяжении его жизни остается сложной задачей. Поэтому исследователи пытаются разработать интерфейсы, которые не требовали бы хирургического вмешательства.

Наиболее распространенным методом для неинвазивного получения информации об активности головного мозга выступает электроэнцефалография (ЭЭГ). Этот метод фиксирует электрические потенциалы на коже головы с помощью шапочки с электродами. Однако кости черепа сильно искажают и ослабляют сигнал, что приводит к низкому соотношению сигнал-шум. Магнитоэнцефалография (МЭГ) предлагает более высокое значение этого параметра за счет измерения магнитных полей мозга, которые меньше искажаются другими тканями. Хотя до недавнего времени этот метод редко применялся для подобных задач из-за громоздкости оборудования.

Исследователи под руководством Жарода Леви (Jarod Levy) из подразделения Meta AI* в Париже решили применить методы ЭЭГ и МЭГ совместно с машинным обучением для решения проблемы неинвазивного декодирования набираемого текста. Они пригласили для участия в эксперименте 35 здоровых носителей испанского языка. Каждому добровольцу показывали на экране короткое предложение на испанском языке по одному слову за раз. После исчезновения текста подопытные должны были по памяти напечатать эту фразу на QWERTY-клавиатуре. Чтобы детали клавиатуры не создавали помех для магнитных сенсоров, исследователи использовали версию с немагнитными деталями.

Во время набора текста исследователи записывали активность мозга участников с помощью ЭЭГ или МЭГ. Каждое нажатие клавиши синхронизировалось с записями мозговой активности. Собранный массив данных включал сотни тысяч нажатий клавиш для обоих методов. Для расшифровки авторы обучили нейросетевую модель Brain2Qwerty. Она состоит из трех подмодулей. На первом этапе алгоритм нарезает непрерывные записи мозговой активности на фрагменты длительностью полсекунды вокруг каждого момента нажатия на клавишу. Сначала эти фрагменты подаются на вход сверточного модуля, который извлекает пространственно-временные признаки из сигналов и учитывает индивидуальные различия добровольцев. Затем полученные представления передаются в модуль с архитектурой трансформера, который обрабатывает последовательность нажатий в пределах всего предложения и за счет контекста уточняет предсказания для отдельных символов. На финальном этапе система использует предварительно обученную языковую модель для исправления опечаток. Такая трехступенчатая архитектура позволяет преобразовать сигналы мозга непосредственно в текст.

Тестирование модели выявило преимущество магнитоэнцефалографии над методом электроэнцефалографии. Алгоритм, обученный на магнитных сигналах мозга, показал среднюю частоту ошибок в распознавании символов на уровне 29 процентов (столько замен, вставок и удалений нужно сделать, чтобы предсказанная моделью строка совпала с правильной). Аналогичный показатель для электрических сигналов составил 65 процентов, что делает этот метод малопригодным для практического использования. У самых успешных участников эксперимента с МЭГ частота ошибок опускалась до 18 процентов. При этом модель успешно восстанавливала многие фразы целиком без ошибок, даже если эти предложения не встречались в исходной обучающей выборке. Дополнительный анализ показал, что нейросеть отлично усвоила пространственное расположение клавиш на стандартной клавиатуре. Ошибки чаще всего возникали, когда модель путала расположенные рядом буквы, что говорит о считывании именно моторных команд мозга. Авторы также заметили, что модель лучше распознает часто встречающиеся слова, но при этом способна угадывать и редкую лексику.

На данный момент система выдает результат только после завершения набора всего предложения. Разработчики планируют модифицировать архитектуру для работы в режиме реального времени. Кроме этого, следующим важным шагом станет проверка на парализованных пациентах, которые могут лишь мысленно представлять набор текста. Главным аппаратным ограничением технологии пока остается необходимость использования громоздкого стационарного сканера магнитных полей. Однако авторы надеются, что прогресс в области компактных датчиков поможет создать носимые шлемы для таких интерфейсов в будущем.

О прогрессе, который произошел в области речевых нейроинтерфейсах за последние десять лет, читайте в нашем материале «Десять лет спустя. Часть 2».

*Деятельность компании Meta запрещена в России

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

09:05 10.04.25 1.4 Медицина Гаджеты

Электрошокеры нарушили работу кардиостимуляторов

В симуляционных экспериментах

Олег Лищук