Разработчики из Disney Research создали алгоритм для качественного раскрашивания монохромных видеороликов. При выборе цветов он учитывает соседние кадры, а также проводит их семантический анализ, рассказывают авторы статьи, опубликованной на arXiv.org. Разработка была представлена на конференции BMVC 2018.
Поскольку цветная съемка стала массово применяться примерно с середины 20-го века, специалисты по обработке изображений разработали методы и автоматические алгоритмы для раскрашивания монохромных изображений из более раннего времени. Кроме того, существуют и способы восстановления цвета на видеороликах, но эта задача гораздо сложнее из-за того, что цвета областей на соседних кадрах должны быть согласованы между собой.
Исследователи из Disney Research под руководством Маркуса Гросса (Markus Gross) создали новый алгоритм, позволяющий добиться более реалистичного раскрашивания видеороликов благодаря большей согласованности соседних кадров. На входе алгоритму необходимо получить один цветной кадр. Для обработки последовательности монохромных кадров разработчики выбрали гибридную схему, в которой изначальную обработку проводят две нейросети, распространяющие цвет исходного кадра локально и глобально.
Под локальным распространением авторы подразумевают последовательную обработку от первого (цветного) кадра ко второму, от второго к третьему и так далее. Для этого алгоритм анализирует деформацию изображения между двумя кадрами и соответствующим образом переносит цвет. Проблема этого подхода заключается в том, что с каждым новым кадром перенос цвета становится все менее надежным. Из-за этого вместе с нейросетью для локального распространения цвета работает алгоритм для глобального распространения, который окрашивает каждый новый кадр на основании исходного цветного кадра. Поскольку на далеких от исходного изображения кадрах расположение объектов может сильно отличаться, глобальный алгоритм использует семантический анализ для переноса цвета между одними и теми же объектами на разных кадрах.
После этого пары цветных кадров, обработанные разными алгоритмами, подаются вместе с монохромным кадром на входной слой еще одной нейросети, которая «соединяет» изображения и выдает окончательный кадр.
Разработчики обучали и тестировали алгоритм на парах изображений из датасета DAVIS и роликов с YouTube. В результате они научили его качественно раскрашивать ролики длиной в несколько десятков кадров. Авторы сравнили эффективность системы с аналогичными алгоритмами для раскрашивания изображений и видео. Новый алгоритм показал большее отношение сигнала к шуму, соответствующее меньшему количеству ошибок при переносе. Кроме того, это отношение падает при увеличении количества кадров не так быстро, как при использовании других методов.
За последнее время многие группы исследователей представили различные нейросетевые алгоритмы, предназначенные для работы с видеозаписями. К примеру, индийские разработчики научили нейросеть создавать короткие реалистичные ролики на основе одного кадра, а исследователи из NVIDIA создали алгоритм для реалистичного переноса стиля между видеороликами. К примеру, они показали, как он создал на основе семантически сегментированного видео реалистичную видеозапись поездки на автомобиле.
Григорий Копиев