Алиса научилась отличать детей от взрослых

Яндекс научил голосовую помощницу Алису понимать, что к ней обращается ребенок, а не взрослый. В таком случае она будет подстраивать свои ответы: отвечать на вопросы как можно проще и включать музыку или подкасты, рекомендованные детям, сообщается в пресс-релизе, поступившем в редакцию N + 1.

Голосовые помощники давно умеют не только распознавать речь, но и распознавать голос — то есть узнавать своего хозяина и отличать его команды от команд посторонних. Прежде всего это необходимо для защиты персональных данных, а также может помочь в бытовых ситуациях: например, Алиса в прошлом году научилась понимать, когда к ней обращается не основной пользователь, чтобы не учитывать его просьбы включить песни при составлении музыкальных рекомендаций владельцу.

В последнем обновлении Алисы разработчики Яндекса научили ее узнавать детей по голосу и отвечать им не так, как взрослым. После того, как пользователь любого возраста попросил помощницу о чем-либо, данные, как и всегда, отправляются для обработки на сервер. Но теперь они анализируются не только алгоритмом распознавания речи и идентификации владельца, но и возрастным классификатором. 

Разработчики отмечают, что использовали для быстрого разделения голоса на взрослый и детский нейросетевую архитектуру с блоками типа inverted residual depthwise convolution (вероятно, по архитектура сеть напоминает алгоритм MobileNetV2 от Google). Поскольку анализ происходит при каждом запросе, если после долгого диалога с ребенком следующую команду скажет взрослый, Алиса поймет это и будет отвечать соответствующим образом. Поскольку в подростковом возрасте голос ребенка уже более похож на взрослый, алгоритму сложно отличать их, поэтому он включает детский режим при работе с детьми до 10-12 лет.

Главное отличие детского режима заключается в том, что помощница старается отвечать более простыми словами и в целом использует другую манеру речи, а часть из ответов она берет из специальной базы, подготовленной для детей. Также различия касаются и контента: по умолчанию Алиса будет проигрывать музыку и подкасты для детей. Также по умолчанию при ответе ребенку у помощницы будет включен режим с блокировкой контента, специально помеченного как взрослый. При желании родители также могут выбрать еще более жесткую фильтрацию, при которой ребенку будет доступен только контент, сделанный для детей, например, сказки и детские песни.

Как и в случае с распознаванием владельца, запросы детей не будут влиять на рекомендации, которые сервисы Яндекса дают основному пользователю. Функция распознавания детей уже доступна на всех устройствах с поддержкой Алисы.

Amazon, которая владеет и разрабатывает голосовую помощницу Alexa, в последние годы работает над распознаванием эмоций и состояния здоровья по голосу. В 2018 году она получила патент на такую систему, а в августе 2020 выпустила умный браслет с распознаванием состояния пользователя по голосу, однако он не интегрирован с Alexa.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Неразумный алгоритм

Почему искусственный интеллект — это инструмент для узких задач

Блейк Лемуан проработал в Google семь лет. Осенью 2021 года он занялся тестированием разговорного агента LaMDA, которого корпорация представила незадолго до этого. Модель была обучена в первую очередь на диалогах, а не повествовательных или аналитических текстах, и потому прекрасно играла роль собеседника. Настолько, что через год Лемуан посоветовал ей найти адвоката и заявил, что признает в ней разумное существо. Даже более, чем разумное: в интервью для Washington Post, равно как и в отчете для руководства Google (его Лемуан вопреки запрету выложил в открытый доступ), инженер использует эпитет «sentient», а значит и вовсе считает машину способной испытывать чувства. Давайте разберемся, как так вышло и почему абсолютное большинство исследователей не видят смысла в его заявлении.