Нейросеть подобрала звуки для беззвучного видео

Григорий Копиев

Американские разработчики создали алгоритм, который самостоятельно подбирает звуки к видео, например, звук велосипеда, если он двигается в кадре. Она также меняет параметры звука в зависимости от того, что происходит в ролике. Препринт статьи опубликован на сайте авторов.

В большинстве случаев камеры снимают видео сразу со звуком из внутреннего или внешнего микрофона. Но есть случаи или даже отдельные виды съемок, в которых видео лишено звука. Например, это касается дронов: они, как правило, вообще лишены микрофона, а в случае, если он все же есть, звук с него в основном будет содержать шум моторов и винтов. Из-за этого монтажерам, которые хотят не просто наложить музыку, а передать реальные звуки сцены, приходится тщательно подбирать похожие звуки из библиотеки и следить за тем, как они соотносятся с поведением объектов в кадре.

Разработчики из Университета Карнеги — Меллона и компании Runway под руководством Николаса Мартеларо (Nikolas Martelaro) создали алгоритм, который делает эту работу за человека. Сначала алгоритм обнаруживает в кадре источники звука. Они могут быть двух типов: конкретные объекты и места с характерным фоновым звуком, к примеру, кафе. Предварительно видео разбивается на сцены по резкому изменению гистограммы между двумя кадрами. Затем нейросеть CLIP классифицирует объекты в ней, используя в качестве классов базу эффектов Epidemic Sound, содержащую 90 тысяч звуков. В итоге для каждой сцены приводится по пять самых вероятных эффектов для объектов и окружения. По умолчанию система выбирает по одному из них, но пользователь может включить дополнительные.

После подбора звуковых эффектов алгоритм создает для них временные интервалы, потому что объект может присутствовать не на протяжении всей сцены, а лишь на ее части. Затем каждая сцена разбивается на фрагменты длиной в секунду, алгоритм определяет расположение источников звука и подбирает под него соответствующие параметры стереозвучания и громкости, чтобы двигающиеся объекты звучали реалистично.

Ранее мы рассказывали об алгоритмах, которые могут озвучить видео на основе акустических свойств предметов в нем или добавить звук на «немое» видео с игрой на фортепиано.

Григорий Копиев