08:42 11.12.21 2.4 IT

Нейросеть подобрала звуки для беззвучного видео

Григорий Копиев

Американские разработчики создали алгоритм, который самостоятельно подбирает звуки к видео, например, звук велосипеда, если он двигается в кадре. Она также меняет параметры звука в зависимости от того, что происходит в ролике. Препринт статьи опубликован на сайте авторов.

В большинстве случаев камеры снимают видео сразу со звуком из внутреннего или внешнего микрофона. Но есть случаи или даже отдельные виды съемок, в которых видео лишено звука. Например, это касается дронов: они, как правило, вообще лишены микрофона, а в случае, если он все же есть, звук с него в основном будет содержать шум моторов и винтов. Из-за этого монтажерам, которые хотят не просто наложить музыку, а передать реальные звуки сцены, приходится тщательно подбирать похожие звуки из библиотеки и следить за тем, как они соотносятся с поведением объектов в кадре.

Разработчики из Университета Карнеги — Меллона и компании Runway под руководством Николаса Мартеларо (Nikolas Martelaro) создали алгоритм, который делает эту работу за человека. Сначала алгоритм обнаруживает в кадре источники звука. Они могут быть двух типов: конкретные объекты и места с характерным фоновым звуком, к примеру, кафе. Предварительно видео разбивается на сцены по резкому изменению гистограммы между двумя кадрами. Затем нейросеть CLIP классифицирует объекты в ней, используя в качестве классов базу эффектов Epidemic Sound, содержащую 90 тысяч звуков. В итоге для каждой сцены приводится по пять самых вероятных эффектов для объектов и окружения. По умолчанию система выбирает по одному из них, но пользователь может включить дополнительные.

После подбора звуковых эффектов алгоритм создает для них временные интервалы, потому что объект может присутствовать не на протяжении всей сцены, а лишь на ее части. Затем каждая сцена разбивается на фрагменты длиной в секунду, алгоритм определяет расположение источников звука и подбирает под него соответствующие параметры стереозвучания и громкости, чтобы двигающиеся объекты звучали реалистично.

Ранее мы рассказывали об алгоритмах, которые могут озвучить видео на основе акустических свойств предметов в нем или добавить звук на «немое» видео с игрой на фортепиано.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

12:03 09.04.26 1.4 Медицина Психология IT

ML-модель уличили в пристрастности при предсказании агрессии у психиатрических пациентов

Доля ложноположительных оценок зависела от пола, этноса и типа жилья

Олег Лищук

Марта Маслей (Marta Maslej) из Университета Торонто с коллегами создала алгоритм машинного обучения для предсказания агрессии пациентов при оказании острой психиатрической помощи по структурированным электронным медицинским картам. Тестирование показало, что полученная модель проявляет пристрастность при прогнозировании. В работе использовали медкарты 17703 пациентов крупного канадского психиатрического стационара с января 2016 по май 2022 года (всего 42719 дня наблюдений, 1272 из них с проявлениями агрессии пациентов). Наиболее частой причиной госпитализации были психотические расстройства. 12398 пациентов и 29879 дней наблюдений использовали для обучения модели, 5305 пациентов и 12840 дней — для ее тестирования. Результаты опубликованы в журнале npj Mental Health Research.