Нейросеть покажет фотографию с новых ракурсов

Американские исследователи разработали алгоритм, создающий из двух снятых с близких ракурсов кадров новые снимки с других ракурсов. Его можно использовать для создания стереопар с помощью смартфонов с двумя камерами, рассказывают разработчики в статье, которая будет представлена на конференции SIGGRAPH 2018.

В последние два года многие смартфоны стали оснащаться модулями с двумя камерами. Некоторые производители используют их для увеличения четкости за счет совмещения снимков, другие устанавливают камеры с разными объективами. Кроме того их можно было бы использовать для создания стереопар, но в большинстве смартфонов с двойными камерами объективы располагаются на расстоянии примерно сантиметра друг от друга — в несколько раз меньшем, чем расстояние между зрачками человека.

Исследователи под руководством Ноя Снейвли (Noah Snavely) из Google разработали метод, позволяющий создавать на основе двух снимков с находящихся рядом камер множество снимков с других ракурсов, в том числе для создания стереопар. В отличие от предыдущих подобных разработок, позволяющих создавать фотографии с ракурсов, находящихся между двух исходных кадров, исследователи решили гораздо более сложную задачу и научились создавать снимки с ракурсов, не входящих в этот диапазон.

Исследователи использовали сверточную нейросеть, которая на основе полученной пары кадров создает многоплоскостное представление кадра, состоящее из нескольких десятков слоев, находящихся на равном расстоянии друг от друга. Каждый из этих слоев представляет собой кадр, несущий информацию о цвете и прозрачности областей на нем. Имея объемное представление сцены в кадре нейросеть может синтезировать фотографии с новых ракурсов, не совпадающих с исходными.

Разработчики натренировали нейросеть на более чем полутора тысячах роликов с YouTube с двигающейся возле статичных объектов камерой. В результате исследователи научились создавать стереопару с в восемь раз большим расстоянием между кадрами, чем в исходной паре снимков. Нейросеть научилась корректно обрабатывать отражения от глянцевых поверхностей, а также справляться с кадрами, снятыми как на улице, так и в помещениях или недалеко от предметов. Тем не менее, получаемые с ее помощью снимки зачастую имеют визуальные артефакты. Например, алгоритм не всегда корректно определяет глубину нахождения мелких объектов на сложном фоне из-за чего но новых кадрах эти объекты выглядят нереалистично.

Недавно индийские разработчики создали алгоритм, который умеет превращать размытое изображение в короткий видеоролик. Он анализирует артефакты движения на снимке и воссоздает из него картину происходящего в момент снимка.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Непрерывную речь декодировали по фМРТ

Неинвазивный декодер восстановил текст из корковых семантических представлений