Команда исследователей из Google создала глубокую нейронную сеть для обработки фото и видео с использованием сразу нескольких стилей, например, скопированных с картин известных художников. Новая система позволяет пользователю в реальном времени изменять пропорции, в которых «смешиваются» стили, при этом нет необходимости каждый раз заново тренировать нейронную сеть, как этого требовали предыдущие аналогичные разработки. Детали исследования выложены в виде препринта на arXiv.org.
Задача о переносе стилей с одного изображения на другое является частным случаем более общей проблемы: как разделить картинку на «стиль» и «содержание»? Различные решения этой проблемы приводят к созданию программ, распознающих объекты на фотографиях, описывающих картинки текстом или дорисовывающих глаза повсюду, где только смогут. Эти же алгоритмы лежат в основе приложений вроде Prisma, позволяющих быстро обрабатывать фотографии, используя заранее определенный набор стилей.
Вся эта область активно развивается около 15 лет, однако лишь недавно разработчики достигли значительных успехов благодаря использованию глубинных нейросетей. В 2015 и 2016 годах появились основополагающие работы, в которых описывались алгоритмы по «добыче» стилей и созданию новых изображений на их основе. Первые решения давали прекрасные результаты, но на создание одной картинки уходило много времени. Последующие разработки значительно ускорили работу нейросети, однако каждая сеть работала лишь с одним стилем: их нельзя было перемешать или быстро добавить еще один.
В новой работе авторы использовали следующую идею: стили многих художников (особенно импрессионистов) схожи между собой в определенных деталях, например, форме мазка. Более того, если требуется использовать стили разных картин одного и того же автора, отличия в стилях, вероятно, будут заключаться только в цветовой гамме. Это означает, что для каждой новой картины нет необходимости переучивать всю сеть заново, а можно лишь немного «сдвинуть» ее параметры, не принося в жертву качество итогового изображения.
Ученые построили модель, которая тренирует нейросеть сразу на наборе картин, стараясь как можно больше параметров сохранить общими, а то, что различается (цвета, например), выразить в виде простой функциональной зависимости. Рассчитывая, что такой подход сработает как минимум для разных картин одного и того же художника, авторы в итоге убедились, что их модель успешно справляется и с подборкой полотен совершенно разных авторов. При этом благодаря ряду оптимизаций новая нейросеть не проигрывает предыдущим системам (работавшим лишь с одним стилем) в плане быстродействия.
Дополнительным преимуществом новой нейросети стала возможность смешивать сразу несколько стилей в одном изображении. Это достигается как раз благодаря тому, что разные стили в новой модели — это лишь линейный сдвиг параметров вдоль какой-то оси. Таким образом, даже при обработке видео можно в реальном времени изменять пропорции разных стилей. По словам авторов, их новый подход демонстрирует, что в мире живописи есть свой «словарь», благодаря которому можно успешно обучать нейросети для работы с широкой выборкой различных стилей и изображений.
Тарас Молотилин
Попробуйте отличить природный звук от антропогенного
Что такое звук? Всего лишь колебания волн, которые наше ухо воспринимает, а мозг интерпретирует как, например, стук дятла или удары молотка. Но достаточно ли хорошо мы их распознаем, чтобы наверняка отличить одно от другого? В этом тесте мы перемешали звуки естественного происхождения и звуки, появившиеся благодаря человеку. Ваша задача — определить их источник. Попробуем?