Google Assistant научился распознавать не только записанные песни, но и напетые или насвистанные. После обработки записи алгоритмами машинного обучения приложение выдает наиболее вероятные песни и указывает вероятность совпадения. Функция доступна в приложении или виджете Google для Android, а также iOS, но только на английском).
Уже много лет для смартфонов разрабатывают программы, которые могут распознавать играющие рядом песни. Реализация алгоритмов варьируется от программы к программе, но в целом их принцип работы заключается в анализе пиков на спектрограмме аудиозаписи, преобразовании этих данных в акустический отпечаток и сравнение его с отпечатками из базы данных.
Поскольку данные сравниваются с базой в сильно сжатом виде, по сути отражающем основную мелодию песни, потенциально такой же способ можно применять и для напетых мелодий. На практике это сложная задача, потому что данные могут быть неполными (человек забыл часть мелодии) и искаженными, а вместо нескольких инструментов при напевании используется лишь один «инструмент».
Несколько лет назад подобную функцию реализовали разработчики приложения SoundHound, а теперь она также появилась в поиске Google — для этого нужно спросить голосового помощника, что за песня сейчас играет. Разработчики обучили новые нейросетевые модели на записях людей, насвистывающих и напевающих различные песни со словами или без. В результате сервис распознавания песен научился сопоставлять такие записи с обычными песнями из своей базы.
На момент запуска функция доступна в последних версиях приложений Google на Android и iOS, при этом на Android она работает с более чем 20 языками, в том числе на русском, а на iOS пока она доступна только на английском, но компания обещает расширять список языков. После того, как алгоритмы прослушали песню, приложение выдает не конкретную песню, как происходит обычно, а три на выбор с указанием вероятности соответствия для каждой из них, и, в некоторых случаях, кнопку с дополнительными результатами.
От редактора
Во время тестирования в большинстве случаев распознавание «зависало» и не выдавало никакого результата (даже отрицательного). Однако в тех случаях, когда функция работала, она действительно узнавала нужную песню, показывая ее первой строчкой.
В прошлом году разработчики из Google создали алгоритм, который слушает, как пользователь поет песни группы Queen, и определяет, насколько он похож на Фредди Меркьюри по манере исполнения.
Григорий Копиев
Кратко объясняем ключевые термины из области ИИ
Любую технологию, связанную с искусственным интеллектом, сегодня принято называть нейросетью. На самом деле это далеко не всегда корректно: например, GPT-4 — языковая модель на базе нейросети. Вместе с научно-исследовательским Институтом искусственного интеллекта AIRI мы подготовили материал, который поможет разобраться в том, какие технологии сегодня используют разработчики систем искусственного интеллекта, и на базовом уровне понять, как устроены последние достижения в этой области.