Google Research представила FreddieMeter — приложение, которое анализирует голос пользователя во время исполнения песен группы Queen и определяет, насколько получается похоже на то, как их пел Фредди Меркьюри. В его основе лежит алгоритм на основе самостоятельно обученного сверточного энкодера: он работает по принципу оценки относительной, а не абсолютной высоты звука. Подробно о работе алгоритма в основе приложения рассказывается в препринте, опубликованном на arXiv.org, а также в блоге Google Research. Попробовать FreddieMeter можно на официальном сайте.
Так как высота звука зависит от частоты его колебаний, то есть хорошо определяемого физического параметра, измерить его автоматически не так сложно: для этого уже очень давно используются, к примеру, программы для цифровой обработки сигналов (в них звук представляется в виде спектро- или осцилограммы, колебания частот на которых видны невооруженным глазом). Из-за сравнительной простоты решения задачи машинное обучение в определении высоты звука почти не используют — во многом из-за того, что такое решение требует большого количества размеченных данных.
Тем не менее, алгоритмы, определяющие высоту звука автоматически и качественно, все равно разрабатываются и по своей производительности даже сравнимы с оригинальными способами обработки сигнала. Проблема, однако, остается: для улучшения работы таких алгоритмов необходимо много размеченных данных.
В новой работе разработчики из Google Research под руководством Бита Гфеллера (Beat Gfeller) решили проблему другим способом: работа их алгоритма SPICE (Self-supervised Pitch Estimation) возможна благодаря сверточному энкодеру, который анализирует частоту звука по его спектрограмме. Алгоритм обучен на методе обучения без учителя (а точнее — самостоятельного обучения), что не требует большого количества размеченных данных.
В основе алгоритма — идея о том, что для человеческого слуха определение относительной высоты звука эффективнее определения абсолютной: распознать интервал между нотами до и ре легче, чем узнать каждую из этих нот по отдельности (разумеется, не имея абсолютного слуха). Именно поэтому алгоритм определяет высоту звука относительно — сравнивая частоты двух даваемых ему звуков.
В итоге, несмотря на изначальное отсутствие информации о верной высоте звука, новый алгоритм достиг точности в более 90 процентов для чистого звука, что сравнимо с ранее предложенными методами и даже превосходит их.
Предложенный алгоритм исследователи использовали для создания FreddieMeter — приложения, которое оценивает то, как пользователь поет, сравнивая параметры голоса с голосом вокалисты группы Queen Фредди Меркьюри. На выбор предлагается спеть четыре песни группы («Don't Stop Me Now», «We Are the Champions», «Bohemian Rhapsody» и «Somebody to Love»), а схожесть голоса пользователя с голосом Фредди оценивается по шкале от 0 до 100.
В честь Фредди Меркьюри, кстати, назван астероид 17473 Freddiemercury. Он находится в главном поясе астероидов — области Солнечной системы между орбитами Марса и Юпитера.
Елизавета Ивтушок
Как инженеры создали первые цифровые изображения
Мнение редакции может не совпадать с мнением автора
К середине XX века люди уже изобрели компьютеры, однако во всем мире существовало всего несколько цифровых изображений. Считалось, что вычислительные машины нужны для серьезных задач, а эксперименты с картинками — всего лишь развлечение. В книге «Пиксель. История одной точки» (издательство «Individuum»), переведенной на русский язык Алексеем Снигировым, один из основоположников современной анимации Элви Рэй Смит рассказывает биографию цифровых изображений, захвативших мир в XXI веке, а также размышляет об истории искусства, технологиях и бизнесе. Предлагаем вам ознакомиться с фрагментом о том, как разработка памяти для электронного компьютера обернулась созданием первых цифровых изображений, но до этого никому не было дела.