Вокодер восстановит речь человека по движению губ

Кристина Уласович

Ученые создали устройство, которое может восстанавливать речь человека только на основе движений его рта. Для этого оно использует специальные датчики, которые закрепляются на лице. Статья ученых опубликована в журнале PLOS Computational Biology.

Использование нейрокомпьютерных интерфейсов, подсоединенных к синтезаторам речи, могло бы помочь людям, страдающим от паралича или афазии, восстановить речь. Однако для реализации такой технологии необходимо сначала создать синтезатор речи, который позволит в режиме реального времени воссоздавать голосовой сигнал по небольшому набору параметров. Авторы новой работы предложили концепцию устройства, которое может синтезировать речь, опираясь всего лишь на информацию о движении органов речи человека.

В основе разработанного исследователями синтезатора речи лежит использование нейронной сети с тремя скрытыми слоями и вокодера (устройства синтеза речи). Нейросеть была обучена с помощью специальной базы данных, в которой хранилась информация о звуках, произносимых человеком, и соответствующих им действиях органов речи. Для ее создания ученые подсоединили девять датчиков движения к небной занавеске, губам, языку и челюсти мужчины, носителя французского языка. Во время того, как он говорил, компьютер следил за его артикуляцией. В итоге исследователям удалось записать почти девятнадцать тысяч звуков или 712 речевых элементов разной длины (начиная с отдельных гласных и согласных и заканчивая целыми предложениями) и соответствующие им движения органов речи. Общая продолжительность аудиозаписи составила 45 минут.

После обучения искусственный интеллект научился восстанавливать голосовой сигнал исключительно по движению губ человека. Речь, созданная компьютером, звучит искусственно, однако исследователи на данном этапе не добивались ее естественного звучания. Четыре носителя французского языка проверили работу программы: каждого из участников исследования попросили беззвучно произнести семь гласных и несколько последовательностей, построенных по схеме гласная-согласная-гласная. После этого 12 человек, также говорящих на французском языке, пытались определить по восстановленному голосовому сигналу, какой звук произнесли испытуемые.

Тестирование показало, что искусственный интеллект распознает гласные звуки значительно лучше, чем согласные — средняя точность распознавания гласных достигала 86 процентов, а согласных — 49 процентов. Последовательности гласных система распознавала в 48–52 процентах случаев.

В будущем подобное устройство может быть использовано для помощи людям с проблемами речевого тракта. Кроме того, изобретение авторов работы поможет другим исследователям при разработке нейрокомпьютерных интерфейсов, которые будут воспроизводить речь человека только на основе сигналов его мозга. В частности, ученые смогут использовать похожий подход.

Недавно разработчики создали алгоритм, который позволяет преодолеть проблему «роботизированного» голоса и добиться естественного звучания. В основе нового голосового синтезатора также лежит использование нейросетей. Кроме того, разработчики недавно достигли успеха и при обратной операции — распознавании устной речи. Компания Microsoft создала систему, которая делает меньше ошибок, чем человек. А ученые из лаборатории DeepMind представили программу, которая может понимать, что сказал человек, отслеживая движения его губ.

Кристина Уласович