Google Research представила FreddieMeter — приложение, которое анализирует голос пользователя во время исполнения песен группы Queen и определяет, насколько получается похоже на то, как их пел Фредди Меркьюри. В его основе лежит алгоритм на основе самостоятельно обученного сверточного энкодера: он работает по принципу оценки относительной, а не абсолютной высоты звука. Подробно о работе алгоритма в основе приложения рассказывается в препринте, опубликованном на arXiv.org, а также в блоге Google Research. Попробовать FreddieMeter можно на официальном сайте.
Так как высота звука зависит от частоты его колебаний, то есть хорошо определяемого физического параметра, измерить его автоматически не так сложно: для этого уже очень давно используются, к примеру, программы для цифровой обработки сигналов (в них звук представляется в виде спектро- или осцилограммы, колебания частот на которых видны невооруженным глазом). Из-за сравнительной простоты решения задачи машинное обучение в определении высоты звука почти не используют — во многом из-за того, что такое решение требует большого количества размеченных данных.
Тем не менее, алгоритмы, определяющие высоту звука автоматически и качественно, все равно разрабатываются и по своей производительности даже сравнимы с оригинальными способами обработки сигнала. Проблема, однако, остается: для улучшения работы таких алгоритмов необходимо много размеченных данных.
В новой работе разработчики из Google Research под руководством Бита Гфеллера (Beat Gfeller) решили проблему другим способом: работа их алгоритма SPICE (Self-supervised Pitch Estimation) возможна благодаря сверточному энкодеру, который анализирует частоту звука по его спектрограмме. Алгоритм обучен на методе обучения без учителя (а точнее — самостоятельного обучения), что не требует большого количества размеченных данных.
В основе алгоритма — идея о том, что для человеческого слуха определение относительной высоты звука эффективнее определения абсолютной: распознать интервал между нотами до и ре легче, чем узнать каждую из этих нот по отдельности (разумеется, не имея абсолютного слуха). Именно поэтому алгоритм определяет высоту звука относительно — сравнивая частоты двух даваемых ему звуков.
В итоге, несмотря на изначальное отсутствие информации о верной высоте звука, новый алгоритм достиг точности в более 90 процентов для чистого звука, что сравнимо с ранее предложенными методами и даже превосходит их.
Предложенный алгоритм исследователи использовали для создания FreddieMeter — приложения, которое оценивает то, как пользователь поет, сравнивая параметры голоса с голосом вокалисты группы Queen Фредди Меркьюри. На выбор предлагается спеть четыре песни группы («Don't Stop Me Now», «We Are the Champions», «Bohemian Rhapsody» и «Somebody to Love»), а схожесть голоса пользователя с голосом Фредди оценивается по шкале от 0 до 100.
В честь Фредди Меркьюри, кстати, назван астероид 17473 Freddiemercury. Он находится в главном поясе астероидов — области Солнечной системы между орбитами Марса и Юпитера.
Елизавета Ивтушок