Специалисты NVIDIA научили нейросеть автоматически менять класс объекта на изображении без использования большого количества данных для обучения. Разработанный ими алгоритм FUNIT основан на генеративно-состязательной нейросети, которой необходима всего пара примеров изображений класса, в который необходимо преобразовать изображение. Препринт статьи с описанием работы выложен на arXiv.org, программу также можно протестировать на сайте компании.
Перенос стилей между изображениями (image-to-image translation) — задача не новая и решенная неоднократно. Больших успехов в этой области добились разработчики компании NVIDIA, которые, к примеру, научились автоматически менять даже время года на видео. Наиболее часто используемый метод для решения подобных задач — генеративно-состязательные сети, которые, однако, требуют большого количества размеченных данных для обучения.
В своей новой работе исследователи из NVIDIA под руководством Мин-Юй Лю (Ming-Yu Liu) решили значительно упростить подобный перенос, ограничив объем используемых данных. Для того, чтобы изменить класс объекта на изображении, созданной нейросети нужно изображение входного объекта и всего два примера целевого изображения: скажем, одно изображение кота и два изображения мопса. После этого с помощью слоев свертки из изображений получается информация об объекте, который надо преобразовать, и классе, в который надо преобразовать объект, после чего из нескольких слоев декодера получается итоговое изображение.
В итоге исследователям удалось обучить нейросеть достоверно превращать объект одного класса в другой. Разумеется, у нейросети пока что есть ряд ограничений: переносить класс она может только между двумя схожими объектами (например, между двумя животными), а вот превращать собаку в цветок ей пока что не удается.
Другая команда разработчиков осенью представила так называемую круговую генеративно-состязательную нейросеть, которая прицельно работает не со всем изображением целиком, а с некоторыми его аспектами. Использование такой нейросети позволило исследователям достоверно перенести информацию между двумя видеоклипами.
Елизавета Ивтушок