Польские разработчики обнаружили, что с задачей переноса стиля с комикса на фотографию лучше всего справляется адаптивная раздельная нормализация — алгоритм, предложенный ранее учеными из Корнеллского университета. Для этого авторы протестировали самые известные методы переноса стиля между изображениями и оценить результаты обычным людям. Статья опубликована на arXiv.org.
Первым эффективный способ переноса стиля между изображениями в 2015 году предложил коллектив ученых из Германии. Их подход основывался на работе сверточных нейросетей, которые успешнее всего справляются с задачами, связанными с анализом изображений. Такая задача, поэтому, не является принципиально новой, хотя с тех пор ее много раз дорабатывали и улучшали: можно вспомнить, к примеру, появившееся два года назад приложение Prisma.
Подавляющее большинство предложенных методов, однако, сосредоточены на переносе стилей художников на другие изображения. Мацей Пенсько (Maciej Pęśko) и Томаш Тшчиньский (Tomasz Trzciński) решили оценить эффективность самых продвинутых методов переноса на изображения графического стиля комиксов.
State-of-the-art подход, предложенный учеными из Германии и упомянутый ранее, включает в себя перенос стиля: обучение сверточных нейросетей признакам исходного (объектам на снимке) и целевого (текстура и мелкие детали) изображения и последующей генерации нового изображения с помощью белого шума. Этот подход, однако, имеет важный недостаток: для обработки изображения с разрешением 512 × 512 пикселей компьютеру с мощным графическим процессором придется потратить целую минуту.
В этой работе он не рассматривался, так как авторы сосредоточились на тех алгоритмах, которые тратят на обработку не более двух секунд. Первый рассмотренный способ адаптивной раздельной нормализации (AdaIn, adaptive instance normalization), однако, во многом основан именно на нем, но включает в себя также функцию потерь, за счет чего время работы удалось существенно сократить. Тем не менее, качество переноса стиля оказалось ограничено из-за того, что модель включала в себя только среднее и дисперсию рассматриваемых признаков. Улучшить такой метод удалось китайским разработчикам, которые за счет увеличения количества слоев научились «отбеливать» и «раскрашивать» изображение в целевой стилистике. Такой подход назвали «универсальным переносом стиля» (UST-WCT, universal style transfer). В той же работе они оптимизировали алгоритм, сократив количество слоев с пяти до четырех (UST-WCT4), а также добавили к нему адаптивную раздельную нормализацию (UST-AdaIN). Наконец, последний способ, фотореалистичная стилизация изображений (PHOTO-R, photorealistic image stylization), также основан во многом на универсальном переносе стиля, но этап сглаживания позволяет добиться повышенной реалистичности.
Авторы использовали все рассмотренные подходы на нескольких изображениях с разрешением 600 × 450 пикселей. Полученные результаты (несколько изображений) дали оценить сотне людей. Жюри пришло к выводу, что самый реалистичный метод — это адаптивная раздельная нормализация (29,37 процента голосов).
Несмотря на то, что опрошенные наблюдатели смогли выбрать лучший вариант, идеальным его назвать нельзя: Пенсько и Тшчиньский отмечают некорректный перенос цвета и неуместное размытие изображений на кадрах. По мнению авторов новой работы, для того, чтобы использовать алгоритмы на основе нейросетей для переноса стилей с комиксов, их работу необходимо совершенствовать и далее.
Переносить информацию можно не только между двумя изображениями. К примеру, с помощью нейросетей можно использовать стиль художника для того, чтобы «раскрасить» видео, а также для того, чтобы превратить популярную песню в классическую симфонию.
Елизавета Ивтушок