Россияне заняли третье место на соревнованиях алгоритмов распознавания речи

Организаторы конференции INTERSPEECH-2018, посвященной речевым технологиям, подвели итоги пятого ежегодного конкурса по решению задач распознавания речи CHiME Speech Separation and Recognition Challenge (CHiME-5). Третье место заняла команда исследователей из Группы ЦРТ (Центр речевых технологий). Об этом сообщается на сайте организации.

Задача распознавания речи — одна из самых сложных и важных в создании современных технологий. От качественного ее решения зависит качество взаимодействия с людьми искусственного интеллекта, например, эффективность работы голосовых помощников. Несмотря на то, что правильно распознать четко произнесенные слова сейчас может практически любой смартфон, задача до сих пор остается не решенной до конца. В частности проблема состоит в том, что компьютеру может понадобиться распознать речь человека на фоне шума или разговоров других людей.

Специально для этого на конференции INTERSPEECH-2018 уже в пятый раз проходят соревнования по распознаванию речи. В этом году участникам предлагалось решить классическую задачу аудиторного распознавания — вычленить и распознать необходимый отрывок речи на фоне шума и многочисленных голосов.

Человеческое восприятие справляется с подобной задачей довольно легко, а способность к вычленению определенной слуховой информации из общего шума называют «эффектом коктейльной вечеринки» (англ. cocktail party effect). Участникам CHiME-5 необходимо было вычленить и распознать речь говорящих из отрывков, записанных на шумных вечеринках и ужинах: помимо нескольких говорящих на фоне целевой речи также присутствовал звон тарелок и столовых приборов, а также музыка. Группа ЦРТ под руководством Ивана Меденникова предложила алгоритм, основанный на работе двух нейросетей: сверточной и сети с долговременной и коротковременной памятью (LSTM). После различения речи отдельных говорящих система определяет наложенные участки (то есть те моменты беседы, в говорящие перебивают друг друга) и поочередно выделяет речь одного участника, «заглушая» другого.

Результаты работы предложенного алгоритма сравнивались с эффективностью подхода, разработанного самими организаторами: как сообщил директор НИД ЦРТ Кирилл Левин, у участников соревнований был доступ к его архитектуре, поэтому подходы большинство команд во многом основывались именно на нем. Согласно таблице с результатами команде ЦРТ удалось добиться точности распознавания в 45,5 процента (у baseline-подхода точность при оценке равнялась 26,7 процента). Точность распознавания победителей конкурса — китайской технологической компании USTC-iFlytek — равнялась 53,6 процента, у занявшей второе место группы сотрудников японской компании Hitachi и американского университета Джонса Хопкинса — 49,6 процента. Четвертое и пятое место заняли команды японской фирмы Toshiba (43,5 процента) и германских университетом Аахена и Падеборна (37,3 процента).

Подробно решение задачи описано в препринте, а ознакомиться с задачей этого года подробнее также можно здесь.

Помимо задачи распознавания речи сложность также представляет задача ее синтеза. В конце прошлого года Google удалось создать систему, которая конструирует речь, почти неотличимую от человеческой.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Раз-раз и в продакшен

Пять комиксов про худшие практики в IT