Нейросеть обучили распознавать речь по активности коры мозга человека. Алгоритм обучали и тестировали на ограниченном наборе из 50 предложений, точность распознавания в среднем составила 97 процентов. Обучение на дополнительных данных снизило количество ошибок, что говорит о том, что алгоритм не просто запоминает предложения, а находит общие закономерности. Статья опубликована в журнале Nature Neuroscience.
Современные нейроинтерфейсы умеют хорошо расшифровывать активность мозга, которая связана с движениями, — таким образом человек может управлять, например, искусственными конечностями. А вот напрямую переводить электрические сигналы мозга в речь до сих пор было невозможно, поэтому повсеместно используется схема, в которой человек управляет курсором и печатает текст на экране компьютера. Но даже если бы точность контроля курсора была идеальной, говорить таким способом все равно получалось бы очень медленно — максимальная скорость была бы как при печати одним пальцем.
Были и попытки расшифровать речь из активности мозга напрямую, однако пока удавалось понять лишь отдельные фонемы или звуки, а распознать речь, которая состояла из ограниченного набора в 100 слов, ученым удалось с точностью менее 40 процентов.
Ученые из Калифорнийского университета в Сан-Франциско под руководством Джозефа Мэйкина (Joseph Makin) воспользовались методами машинного обучения для того, чтобы расшифровать речь по активности мозга. У четырех добровольцев записывали электрокортикограмму, аналог электроэнцефалограммы, в котором электроды накладывают непосредственно на кору мозга (электроды пациентам установили по медицинским показаниям). Решетка электродов покрывала область коры вокруг боковой борозды — эта зона включает в себя речевые центры.
Участники читали вслух предложения из двух баз данных: в одной было 30 предложений и 125 уникальных слов, во второй — 50 предложений и 250 уникальных слов. Каждый набор фраз зачитывали как минимум три раза (два для обучения и один тестовый).
Из электрокортикограммы выделяли высокочастотную составляющую (70-150 Герц) и использовали эту последовательность в качестве входных данных для нейросетевого автокодировщика. Такие алгоритмы переводят входящий сигнал во внутренний код, а затем расшифровывают его. Нейросеть как бы переводит информацию сначала на «свой язык», а потом уже в нужный нам формат.
На первом этапе алгоритм выделял небольшие последовательности электрической активности мозга, которые были характерны для определенных компонент речи и повторялись в разных образцах. Нейросеть отфильтровывала остальную информацию и передавала на следующий элемент только оставшиеся последовательности.
В качестве кодировщика авторы использовали рекуррентную нейросеть, которая позволяет обрабатывать цепочки событий вне зависимости от их длины и использует для этого свою внутреннюю память. Кодировщик на этом этапе также предсказывал и зашифровывал звуковые характеристики слов, это было дополнительной подсказкой при обучении алгоритма. Вторая рекуррентная сеть затем переводила внутренние последовательности в текст, единицей расшифровки было слово (а не звук, как в предыдущих моделях). Кроме того, в качестве входных данных декодер использовал собственное предсказание следующего слова в предложении.
Исследователи предположили, что нейросеть может просто запоминать набор предложений и выбирать наиболее подходящее. Чтобы проверить эту гипотезу, алгоритмы, которые использовали ограниченный набор данных и распознавали речь с большим числом ошибок, дополнительно обучили на другом наборе предложений, а также использовали активность мозга другого человека. Кроме того, для сравнения своей парадигмы с существовавшими ранее авторы работы попробовали расшифровать те же образцы речи при помощи скрытой марковской модели, которая может использовать в качестве единицы только звуки, но не слова.
Чтобы узнать, какая анатомическая область вносит больший вклад в работу алгоритма, ученые программно меняли данные отдельных электродов и проверяли, насколько увеличится количество ошибок в распознанном тексте.
Уровень точности расшифровки речи составил около 97 процентов. Если для декодирования не использовали звуковые характеристики речи, количество ошибок увеличивалось в несколько раз, но уровень точности в целом оставался приемлемым (ниже 25 процентов). Значит, алгоритм можно тренировать, даже если человек не может произносить предложения вслух. Обучение на другом наборе предложений или на данных от другого человека значительно снизило число ошибок (p < 0,001). Это говорит о том, что нейросеть не просто запоминает ограниченный набор предложений, но и выделяет общие закономерности речи и языка. Уровень ошибок в модели, которая расшифровывала не слова, а звуки был выше 33 процентов — значит, подход этой работы более эффективен.
Наибольший вклад в работу алгоритма вносила вентральная сенсомоторная кора и верхняя височная борозда — области, которые связаны с созданием и восприятием речи.
В будущем можно обучать модель на большем числе образцов речи, чтобы она могла распознавать речь, не ограниченную набором из 50 предложений, в том числе у пациентов, которые не могут говорить и двигаться.
Впервые подобную модель ученые представили в прошлом году: в работе были использованы предложения с большим набором слов, но уровень ошибок распознавания был между 7 и 11 процентами. Интересно, что этот алгоритм работал и когда участники произносили фразу беззвучно, хотя точность распознавания в таком случае снижалась до 30-60 процентов.
Алиса Бахарева
У обычных людей мозг заметно активируется в ответ на родной язык по сравнению с незнакомыми
Когнитивные нейробиологи из США с помощью фМРТ исследовали, как мозг полиглотов реагирует на записи речи на разных языках. Оказалось, что чем более знакомый язык слышит полиглот, тем сильнее активируется языковая сеть мозга, а. родной язык вызывает менее сильный отклик, сравнимый с откликом на незнакомый, говорится в исследовании, опубликованном на bioRxiv. За обработку речи обычно отвечает левое полушарие мозга, но не целиком — височная и лобная доли его коры формируют так называемую языковую сеть. Эта сеть обычно сильнее откликается на речь на родном языке, чем на неразборчивые звуки или неизвестные языки. Не-языковые задачи не влияют на активность языковой сети. Не так давно был описан случай женщины, живущей без височной доли левого полушария — у нее за обработку языка отвечает правое. Именно потому, что лобная доля левого полушария не может обрабатывать язык без височной, она вовсе не была задействована в обработке речи. Изучать подобные отклонения от нормы полезно, чтобы понять саму норму. Однако люди с повреждениями мозга и нарушениями языковых систем встречаются (и исследуются) чаще, чем те, чьи языковые навыки, наоборот, выше среднего — а их тоже хотелось бы изучить. Хотя ученые активно исследуют особенности обработки языка у билингвов, не так много работ было сосредоточено на полиглотах. Теперь нейробиологи из Массачусетского технологического института под руководством Эвелины Федоренко (Evelina Fedorenko) заглянули в мозг людей, говорящих сразу на нескольких языках, чтобы выяснить, как он воспринимает и обрабатывает язык. С помощью функциональной магнитно-резонансной томографии (фМРТ), которая измеряет мозговой кровоток, ученые просканировали мозг 25 полиглотов, 16 из которых были гиперполиглотами (то есть владели минимум пятью языками, включая собственный). Большинство — 19 человек — были носителями английского, другие 6 — французского, голландского, немецкого, китайского и испанского. В среднем участники знали 16,6 языков, а один владел более чем 50 языками. Лежа внутри аппарата фМРТ, полиглоты слушали серию 16-секундных записей на восьми языках. Это были либо фрагменты из Библии, либо из «Приключений Алисы в Стране чудес», которые читали носители этих языков. Среди восьми языков был родной язык участника, три известных ему языка и четыре незнакомых. Два незнакомых языка были родственными известным языкам, а еще два были из других языковых семей. Выяснилось, что в ответ на любой язык у полиглотов активируется языковая сеть мозга — та, что у всех людей отвечает за восприятие родного языка. Но активность в зависимости от языка различалась. Чем лучше участник владел языком, который слышит, тем активнее откликалась языковая сеть. На неизвестный язык, родственным родному языку участника, его мозг реагировал слабее, чем на знакомый язык, но сильнее, чем на чужой язык из не связанной языковой семьи. То есть ученые обнаружили, что уровень активности языковой сети был прямо пропорционален уровню знакомства с языком. Но родной язык стал исключением: на него мозг полиглотов реагировал слабее, чем на другие известные им языки и даже слабее, чем на неизвестный, но родственный родному. Это может означать, что для обработки языков, выученных в раннем детстве, требуется меньшая активность мозга. Ученые полагают, что это можно отнести и к более общему механизму: чем лучше мы в чем-то разбираемся, тем меньше ресурса (когнитивного и нейронного) нам требуется для этого. Также ученые подтвердили выводы предыдущего исследования о том, что мозг полиглотов реагирует на родной язык слабее, чем мозг не-полиглотов. В том же исследование авторы описывают и особенности обработки языка у билингвов — их языковая сеть реагирует на оба известных им языка сильнее, чем языковая сеть монолингвов реагирует на их родной язык. Эвелина Федоренко занимается системами человеческого языка и изучает мозг полиглотов уже много лет. Во время ее исследований она предлагает людям — и монолингвам и полиглотам — разные задачи, чтобы сравнить активность мозга во время них. Одна из таких задач — тест на невербальную память: испытуемый должен запомнить расположение квадратов на сетке, которые вспыхивают и гаснут. В этом испытании задействована нейронная сеть системы исполнительных функций — она не связана с языковой сетью, но поддерживает общий интеллект. Во время прослушивания текста на незнакомом языке эта сеть у обычных людей не активна, а у полиглотов она включается. Ученая предполагает, что так их мозг пытается уловить «лингвистический сигнал». Знание нескольких языков сопровождается и другими особенностями. Мы рассказывали, что билингвы, знающие шведский и испанский, определили временные промежутки в разных контекстах точнее, чем носители лишь одного из языков. Все дело в том, что в этих языках время описывается по-разному: как расстояние или как объем — и билингвам доступны оба концепта, между которыми они легко могут переключаться, как и между языками.