Специалисты NVIDIA научили нейросеть автоматически менять класс объекта на изображении без использования большого количества данных для обучения. Разработанный ими алгоритм FUNIT основан на генеративно-состязательной нейросети, которой необходима всего пара примеров изображений класса, в который необходимо преобразовать изображение. Препринт статьи с описанием работы выложен на arXiv.org, программу также можно протестировать на сайте компании.
Перенос стилей между изображениями (image-to-image translation) — задача не новая и решенная неоднократно. Больших успехов в этой области добились разработчики компании NVIDIA, которые, к примеру, научились автоматически менять даже время года на видео. Наиболее часто используемый метод для решения подобных задач — генеративно-состязательные сети, которые, однако, требуют большого количества размеченных данных для обучения.
В своей новой работе исследователи из NVIDIA под руководством Мин-Юй Лю (Ming-Yu Liu) решили значительно упростить подобный перенос, ограничив объем используемых данных. Для того, чтобы изменить класс объекта на изображении, созданной нейросети нужно изображение входного объекта и всего два примера целевого изображения: скажем, одно изображение кота и два изображения мопса. После этого с помощью слоев свертки из изображений получается информация об объекте, который надо преобразовать, и классе, в который надо преобразовать объект, после чего из нескольких слоев декодера получается итоговое изображение.
В итоге исследователям удалось обучить нейросеть достоверно превращать объект одного класса в другой. Разумеется, у нейросети пока что есть ряд ограничений: переносить класс она может только между двумя схожими объектами (например, между двумя животными), а вот превращать собаку в цветок ей пока что не удается.
Другая команда разработчиков осенью представила так называемую круговую генеративно-состязательную нейросеть, которая прицельно работает не со всем изображением целиком, а с некоторыми его аспектами. Использование такой нейросети позволило исследователям достоверно перенести информацию между двумя видеоклипами.
Елизавета Ивтушок
Опознайте археологическую находку по описанию нейросети
Представьте, что вы оказались на сайте, где торгуют древней посудой, инструментами, украшениями и другими ценностями. Захотелось что-нибудь прикупить? Тогда придется доказать, что вы разбираетесь в артефактах прошлого. Мы попросили генеративную нейросеть YandexGPT рассказать про археологические находки так, как если бы их можно было купить на маркетплейсе. Изучите описание и попробуйте догадаться, о чем идет речь.