Разработчики из NVIDIA создали игру, в которой за расчет структуры игрового мира отвечает игровой движок, а рендеринг графики производит нейросеть, обученная на множестве видеозаписей реального мира. Разработка была представлена на конференции NIPS 2018, а ее описание опубликовано на сайте компании.
В последние несколько лет множество исследовательских групп добились большого успеха в области нейросетевого переноса стиля и деталей между изображениями. К примеру, нейросети уже умеют превращать нарисованные портреты в реалистичные фотографии людей. Но на этом исследователи не остановились и приступили к более сложной задаче — переносу между видеороликами. Эта задача более сложна не просто потому, что нейросети нужно обрабатывать больший объем данных. Главное отличие заключается в том, что алгоритм должен работать не только с одним кадром, а сразу с несколькими соседними, иначе итоговый ролик будет «дерганным».
Летом 2018 года группа разработчиков из NVIDIA представила алгоритм vid2vid, способный выполнять перенос между видеороликами разных стилей, и при этом создавать плавные переходы между кадрами итогового ролика. Алгоритм представляет собой генеративно-состязательную нейросеть, состоящую из генератора, создающего изображения, и дискриминатора, стремящегося отличить созданные генератором «подделки» от объектов из обучающего датасета. Разработчики создали несколько нейросетевых моделей и одну из них они обучили превращать семантически сегментированные видеозаписи (на которых каждый кадр разбит на области, соответствующие объектам определенных классов) поездок на автомобиле в реалистичные ролики. Более подробно об архитектуре и обучении алгоритма можно прочитать в отдельной заметке.
В своей новой разработке исследователи объединили алгоритм vid2vid с игровым движком и создали на их базе компьютерную игру. В качестве движка они выбрали Unreal Engine 4, применяющийся во многих популярных играх. Во время работы движок создает трехмерную модель виртуального мира, а пользователь управляет передвижением автомобиля в этом мире. При этом поскольку все объекты в виртуальном мире принадлежат к строго определенному классу, разработчики реализовали вывод семантически сегментированной последовательности кадров. После синтеза эта последовательность передается на нейросеть, которая превращает ее в достаточно реалистичный видеоролик, который уже отображается на экране перед пользователем.
В конце 2017 года исследователи из NVIDIA создали другую генеративно-состязательную нейросеть для переноса между видеороликами. Они обучили ее на данных разных типов и научили выполнять разные задачи. Например, алгоритм смог превратить запись зимней поездки на автомобилю в поездку по летним дорогам, а также сумел изменить породу собак.
Григорий Копиев
Для этого пациентам с эпилепсией и электродами в мозге пришлось ее послушать
Ученые из США декодировали отрывок песни Pink Floyd из записей нейронной активности 29 человек. Они выяснили, что в обработке музыки сильнее задействовано правое полушарие, а основную роль играют верхние височные извилины. Работа опубликована в PLoS Biology.