Нейросеть научили реалистично озвучивать панорамные снимки

Haikun Huang et al. / CHI 2019

Американские разработчики создали алгоритм, способный самостоятельно добавлять на панорамные снимки звуки от объектов, таких как автомобили и люди. При анализе снимка алгоритм учитывает расположение объектов на нем и располагает источники звука соответствующим образом, благодаря чему пользователь может понять откуда исходит тот или иной звук, рассказывают авторы статьи, которая будет представлена на конференции CHI 2019.

Поскольку шлемы виртуальной реальности получают все большее распространение, разработчики программного обеспечения уделяют больше внимания программному обеспечению для них, в том числе программам для просмотра панорамных снимков. Для достижения большего эффекта погружения в мир на снимке инженеры и программисты предлагают различные разработки. К примеру, Google и Disney создали экспериментальные многокамерные установки, позволяющие создать панорамный снимок с имитацией эффекта объемного восприятия. Кроме того, компании представляют шлемы виртуальной реальности со все более качественными экранами и другими визуальными технологиями, к примеру, поддержкой фовеального рендеринга. Однако все эти разработки нацелены на улучшение визуального восприятия, тогда как в области звука в VR-устройствах подобных работ намного меньше.

Лап Фай Юй (Lap-Fai Yu) из Университета Джорджа Мейсона и его коллеги создали алгоритм, позволяющий добавлять на панорамные снимки реалистичные звуки, расположение и тип которых соответствует объектам на снимке. Единственные данные о реальном мире, изображенном на снимке, которые получает алгоритм — это сам панорамный 360-градусный снимок. Звуки, которые алгоритм накладывает на панораму, не записываются во время ее съемки, а берутся из базы данных, составленной авторами. Она состоит из 512 аудиозаписей, разбитых на два типа — фоновые звуки, такие как звуки моря или улицы, а также звуки от конкретных объектов, к примеру, разговоры людей, шум автомобилей или звуки от животных. Всего в обоих типах собраны звуки от объектов примерно 50 типов, каждому из которых присвоена соответствующая метка.

Схема работы алгоритма

Haikun Huang et al. / CHI 2019

Во время анализа снимка алгоритм сначала определяет тип окружения, к примеру, улица, пляж или лес, и присваивает соответствующую метку для наложения фоновых звуков. Для этого он нарезает панораму на десять частей, определяет тип окружения для каждой из них, а затем присваивает всему снимку наиболее часто встретившийся во время классификации тип. Затем сверточная нейросеть, обученная на известном датасете различных объектов COCO, приступает к более тщательному анализу и определяет на снимках отдельные объекты и присваивает им метки, соответствующие их типу. После этого алгоритм определяет не только пространственное расположение этих объектов, но и рассчитывает их расстояние от центра панорамы. Для этого пользователю необходимо один раз ввести расстояние до одного из объектов, после чего алгоритм будет использовать его в качестве калибровочных данных. Благодаря этому звуки от объектов, расположенных далеко от центра, будут тише.

После того, как нейросеть разметила все объекты и рассчитала их расположение, пользователь может запустить программу для просмотра панорам. В ней можно видеть саму панораму, а также слышать звуки всей сцены и звуки конкретных объектов, взятые из базы данных. При использовании шлема виртуальной реальности человек воспринимает эти звуки объемными благодаря тому, что при движении головы расположение их источника меняется относительно человека, как и в реальном мире.

В 2015 году американские исследователи научили нейросеть озвучивать ролики без звука, на которых пользователи ударяют по объектам разных типов и материалов. Поскольку во время обучения алгоритм получал ролики со звуком, после этого он научился самостоятельно подбирать наиболее подходящий звук для «немых» роликов.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

12:5804.09.23 1.8 IT

Российские школьники получили четыре золотые медали на Международной олимпиаде по информатике

Это лучший результат с 2019 года

Слава Гоменюк

Все участники российской команды получили золотые медали на 35-й Международной олимпиаде по информатике (IOI) в Венгрии. Как сообщается на сайте Московского физико-технического института, в состав российской сборной вошли Гимран Абдуллин и Валерий Родионов из Казани и Иван Пискарев и Антон Степанов из Москвы. Возглавляли команду доцент факультета информационных технологий и программирования Университета ИТМО Андрей Станкевич и руководитель Центра развития IT-образования Московского физико-технического института Алексей Малеев. Это лучший результат российской сборной с 2019 года, когда также все участники получили золотые медали. Олимпиада проходила с 28 августа по 4 сентября и включала в себя два тура по пять часов, в течение которых нужно решить и запрограммировать три алгоритмические задачи. В прошлом году российская команда завоевала три золотые и одну серебряную медали.