«Компьютерное воображение» научилось создавать картинку по ее описанию

Сверху вниз: исходное изображение, несколько примеров воссозданных картинок и результат поиска в базе по картинке

Изображение: Hiroharu Kato et al./ arXiv.org

Исследователи из Токийского университета создали алгоритм для восстановления изображения по его «кусочному» описанию. Такая задача аналогична сборке картинки-пазла: известны типы «кусочков» и их точное количество, необходимо восстановить исходную картинку. По словам авторов, эта работа является важным шагом для области «компьютерного воображения», с его помощью планируется создавать изображения только на основе их текстового описания. Препринт с описанием исследования выложен на сайте arXiv.org.

Созданная авторами программа основана на представлении изображения в виде «мешка визуальных слов» (Bag-of-Visual-Words). Этот метод изначально был создан для анализа текстов, фактически, «мешок слов» представляет собой набор пар «слово» — «число его появлений в тексте». В случае картинок все аналогично, только вместо «слов» используются небольшие усредненные фрагменты изображений.

Из каждой картинки авторы создавали свой «мешок», а затем пытались восстановить из него оригинал, то есть расставить фрагменты в правильном порядке. Для этого ученые использовали два типа параметра «естественности» (naturalness): локальную и глобальную.

Расположение считалось локально «естественным», если изображения на кусочках плавно переходили друг в друга, не было явных нестыковок. Глобальная естественность оценивалась по базе данных известных изображений. Она определяла, например, что фрагменты неба должны располагаться в верхней части картинки, а лицо человека на портрете — ближе к центру.

Авторы применяли свой алгоритм для восстановления изображений разных жанров. Они оценивали степень схожести полученных «реконструкций», а также определяли, какое оптимальное соотношение должно быть между глобальной и локальной естественностью, так как зачастую эти параметры «в чистом виде» давали совершенно разные результаты.

Оказалось, что среди аналогичных программ новый алгоритм выдавал наилучшие результаты по степени схожести с оригиналом. На многих картинках легко можно угадать изображенный объект, даже не имея под рукой описания или исходного изображения.

В качестве эксперимента ученые также попытались создать изображения «с нуля», основываясь только на текстовом описании. По словам авторов, хоть им и удалось получить изображения, отдаленно напоминающие описание, задание оказалось слишком трудным для их алгоритма.

Проблема складывания пазла хорошо известна в математике, однако впервые ученые применили ее для воссоздания картинки по ее описанию. Помимо области компьютерного воображения авторы планируют использовать алгоритм для оптимизации программ, распознающих изображения. Для их работы нужно классифицировать картинки по набору признаков, но не всегда удается установить, какие признаки оптимально подходят для этой задачи. Реконструкция изображения по заданным признакам и сравнение результата с оригиналом позволит понять, какие признаки оказались значимы, а какие — нет.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.