Звуки вдохов между произнесением слов во время речи можно использовать для идентификации личности говорящего. В отличие от других компонентов речи, вдохи сложнее контролировать и, следовательно, тяжелее подделать, сообщается в работе американских исследователей, опубликованной на arXiv.org.
В последние несколько лет технологии распознавания речи сильно продвинулись и применяются во многих современных смартфонах и «умных устройствах», иногда даже без использования интернета. За счет применения нейросетевых алгоритмов распознавание речи усовершенствовалось еще сильнее, и самые современные разработки уже не уступают живым людям. Это позволило использовать голос в качестве средства идентификации, но практически все такие системы анализируют звуки, издаваемые при произношении самих слов.
Исследователи под руководством Риты Сингх (Rita Singh) из Университета Карнеги — Меллон предложили использовать для идентификации звуки вдохов между словами.Они предложили применить для распознавания звуков вдохов методику, основанную на супервекторах признаков, которая используется во многих системах распознавания голоса. В ней отдельные временные фрагменты речи в виде спектра преобразуются в векторы. Затем среди этих векторов ищут области «сгущений», которые преобразуются в супервекторы, которые анализируются с помощью классификаторов, например, с помощью метода опорных векторов. В качестве альтернативного решения авторы также разработали систему распознавания вдохов, основанную на нейросети.
Ученые применили для распознавания сверточную нейросеть с долгой краткосрочной памятью (об этом типе нейросетей можно прочитать в нашем материале). Для экспериментальной проверки они взяли набор данных, состоящий из почти ста часов записей новостных передач на английском языке, записанных в 1997-1998 годах. На этом наборе данных они натренировали уже существующую систему распознавания речи, которую исследователи использовали для сегментации речи на фонемы. С помощью этой системы они вычленили из этого набора данных только звуки между словами.
Получив набор данных, состоящий из вдохов между словами, исследователи проверили на нем распознавание голоса с помощью двух методов. Эффективность распознавания личности говорящего у метода, основанного на супервекторах оказалась на уровне 72-74 процентов в зависимости от типа использованного классификатора. Нейросеть в аналогичном эксперименте смогла достичь точности идентификации в 91,3 процента.
Другие ученые предлагают распознавать личность говорящего по уникальным движениям губ во время речи. Гонконгские исследователи сделали это с помощью визуального распознавания, а инженеры из США недавно создали приложения для смартфона, которое воспроизводит из динамика ультразвуковые сигналы и анализирует движение губ по отраженному сигналу.
Григорий Копиев
Почему искусственный интеллект — это инструмент для узких задач
Блейк Лемуан проработал в Google семь лет. Осенью 2021 года он занялся тестированием разговорного агента LaMDA, которого корпорация представила незадолго до этого. Модель была обучена в первую очередь на диалогах, а не повествовательных или аналитических текстах, и потому прекрасно играла роль собеседника. Настолько, что через год Лемуан посоветовал ей найти адвоката и заявил, что признает в ней разумное существо. Даже более, чем разумное: в интервью для Washington Post, равно как и в отчете для руководства Google (его Лемуан вопреки запрету выложил в открытый доступ), инженер использует эпитет «sentient», а значит и вовсе считает машину способной испытывать чувства. Давайте разберемся, как так вышло и почему абсолютное большинство исследователей не видят смысла в его заявлении.