Разработчики из MIT создали нейросеть, которая самостоятельно находит музыкальный инструмент на видео и определяет, как он звучит. Если на записи присутствует несколько инструментов, программа позволяет пользователю выбрать, какой именно он хочет послушать, просто кликнув на него. При этом для обучения программы не требуется размеченных данных, сообщается в работе, которая будет представлена на сентябрьской конференции по компьютерному зрению European Conference on Computer Vision (ECCV).
Очень часто для того, чтобы нейросеть научилась распознавать объекты на изображении или отдельные источники в звуковой дорожке, требуется большой набор размеченных данных. Однако проставлять метки приходится вручную, что занимает довольно много времени. Поэтому исследователи в последнее время все чаще используют альтернативные подходы к обучению программ, которые позволяют алгоритму самостоятельно получать необходимые знания.
Авторы новой работы под руководством Хан Чжао (Hang Zhao) создали нейросеть под названием PixelPlayer. Она состоит из трех компонентов — графического, аудио и синтезирующего. Первая нейросеть анализирует графические элементы видео, в то время как вторая анализирует спектрограмму аудиодорожки. Затем синтезатор сопоставляет определенные области на кадрах (фактически, наборы пикселей) с определенными звуками, чтобы определить, как звучит тот или иной инструмент.
Для обучения системы ИИ программисты использовали 714 видео, на которых музыканты играют соло или дуэтом — суммарно записи длились 60 часов. Всего в них было представлено 11 категорий инструментов: аккордеон, акустическая гитара, виолончель, кларнет, эрху (китайская скрипка), флейта, саксофон, труба, туба, скрипка и ксилофон. Главная особенность алгоритма заключается в том, что он использует «самоконтролируемое» глубинное обучение: ему не требуется размеченных данных, которые бы указывали на то, как выглядит или звучит тот или иной инструмент. Всю необходимую информацию он извлекает самостоятельно, поэтому исследователи точно не знают, какие именно особенности входных данных система считает значимыми.
На демонстрационном видео показано, что пользователю достаточно кликнуть в область кадра, где запечатлен инструмент, и программа сделает его звук громче. Кроме того, PixelPlayer позволяет регулировать громкость инструментов с помощью бегунка и, таким образом, редактировать аудиотрек.
В будущем группа Чжао надеется улучшить качество звука, использовав больше обучающего материала. В будущем PixelPlayer может стать удобным инструментом для редактирования аудио, позволяя например улучшать или восстанавливать старые записи концертов. Кроме того, алгоритм может лечь в основу системы, которая позволит роботам различать источники окружающих звуков.
В прошлом исследователи из лаборатории Facebook Research разработали метод превращения музыкальных записей в записи с другими инструментами, стилем и жанром. Она смогла переделать симфонию Моцарта в запись пианиста, играющего музыку Бетховена.
Кристина Уласович
Отличите реальные научные изыскания от выдуманных
В интернете только и разговоров, что о ChatGPT. Он пишет за студента диплом, устраивается на работу в крупную корпорацию и помогает добиться отмены штрафа за парковку. Но может ли чат-бот написать симфонию, превратить кусок холста в шедевр или даже выдвинуть научную теорию? Предлагаем найти ответ на последний вопрос в нашем тесте.