Нейросеть Facebook* предсказала движения музыкантов по аудиозаписи

Кристина Уласович

Разработчики из Facebook представили нейросеть, которая умеет предсказывать движения рук музыканта по аудиозаписи. Система слушает музыкальную композицию и одновременно проецирует в дополненной реальности аватара, играющего мелодию. Программисты, чья статья была представлена на конференции Conference on Computer Vision and Pattern Recognition (CVPR), считают, что разработка может быть полезна для обучения игре на музыкальных инструментах.

Сегодня для самостоятельного обучение игре на различных инструментах используются разные приложения и видеоуроки. Однако они, как правило, позволяют рассмотреть движения музыканта лишь с определенного ракурса. Перенос учителя в виртуальную или дополненную реальность может быть удобен для пользователей, так как он позволит им полностью увидеть правильную постановку рук при игре на инструменте.

Группа разработчиков под руководством Эли Шлицермана (Eli Shlizerman) решила создать виртуальный аватар, который бы мог имитировать движения рук пианиста или скрипача, основываясь на аудиозаписи. Для этого они использовали LSTM-нейросеть. Это разновидность архитектуры рекуррентных нейросетей, где каждый слой имеет обратную связь с другими слоями и обладает своеобразной памятью, позволяющей учиться на своих ошибках и усваивать долгосрочные связи (подробнее об LSTM-нейросетях можно почитать в нашем материале «Самая человеческая задача»).

В качестве данных для обучения программисты использовали публично доступные видеозаписи, на которых профессионалы играют на музыкальных инструментах без аккомпанемента. Для пианино исследователям удалось собрать 3,6 часа материала, для скрипки — 4,4 часа. На каждом кадре видеозаписи нейросеть определяла, где находятся руки и пальцы исполнителя и строила скелетную модель. Она сопоставляла эти данные с мел-частотным кепстральными коэффициентами, которые используются в качестве характеристики аудиосигналов. Важно заметить, что исследователи не использовали midi-файлы, поэтому нейросеть не обучалась зависимостям между нотами и, например, конкретными клавишами пианино.

В результате программа научилась определять взаимосвязь между характеристиками звука и движениями рук музыканта и строить предсказания. Созданную нейросетью скелетную модель разработчики использовали для создания аватара в дополненной реальности. Итог их работы можно увидеть на видео ниже:

На видеоролике хорошо видно, что аватар скорее подражает музыкантам, чем полноценно повторяет их движения. Тем не менее, движения виртуального персонажа выглядят вполне естественно. По мнению создателей, в будущем подобная технология может найти множество применений. Например, аватар может быть использован для обучения — в то время как он будет копировать движения профессионала в виртуальной реальности, пользователь сможет обойти его с разных сторон и понаблюдать за техникой игры.

Сегодня виртуальные аватары все чаще используются для решения различных задач. Например, с их помощью предлагают опрашивать свидетелей преступления, лечить больных шизофренией и парализованных людей.

*Facebook принадлежит компании Meta, деятельность которой в России запрещена.

Кристина Уласович