Компьютер научили опознавать людей по вдохам между словами

Jiji Press/ Afp/Getty Images

Звуки вдохов между произнесением слов во время речи можно использовать для идентификации личности говорящего. В отличие от других компонентов речи, вдохи сложнее контролировать и, следовательно, тяжелее подделать, сообщается в работе американских исследователей, опубликованной на arXiv.org.

В последние несколько лет технологии распознавания речи сильно продвинулись и применяются во многих современных смартфонах и «умных устройствах», иногда даже без использования интернета. За счет применения нейросетевых алгоритмов распознавание речи усовершенствовалось еще сильнее, и самые современные разработки уже не уступают живым людям. Это позволило использовать голос в качестве средства идентификации, но практически все такие системы анализируют звуки, издаваемые при произношении самих слов.

Исследователи под руководством Риты Сингх (Rita Singh) из Университета Карнеги — Меллон предложили использовать для идентификации звуки вдохов между словами.Они предложили применить для распознавания звуков вдохов методику, основанную на супервекторах признаков, которая используется во многих системах распознавания голоса. В ней отдельные временные фрагменты речи в виде спектра преобразуются в векторы. Затем среди этих векторов ищут области «сгущений», которые преобразуются в супервекторы, которые анализируются с помощью классификаторов, например, с помощью метода опорных векторов. В качестве альтернативного решения авторы также разработали систему распознавания вдохов, основанную на нейросети.

Ученые применили для распознавания сверточную нейросеть с долгой краткосрочной памятью (об этом типе нейросетей можно прочитать в нашем материале). Для экспериментальной проверки они взяли набор данных, состоящий из почти ста часов записей новостных передач на английском языке, записанных в 1997-1998 годах. На этом наборе данных они натренировали уже существующую систему распознавания речи, которую исследователи использовали для сегментации речи на фонемы. С помощью этой системы они вычленили из этого набора данных только звуки между словами.

Получив набор данных, состоящий из вдохов между словами, исследователи проверили на нем распознавание голоса с помощью двух методов. Эффективность распознавания личности говорящего у метода, основанного на супервекторах оказалась на уровне 72-74 процентов в зависимости от типа использованного классификатора. Нейросеть в аналогичном эксперименте смогла достичь точности идентификации в 91,3 процента.

Другие ученые предлагают распознавать личность говорящего по уникальным движениям губ во время речи. Гонконгские исследователи сделали это с помощью визуального распознавания, а инженеры из США недавно создали приложения для смартфона, которое воспроизводит из динамика ультразвуковые сигналы и анализирует движение губ по отраженному сигналу.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.