Компьютер научили «приближать и улучшать» пикселизованное изображение

Специалисты исследовательского проекта Google Brain, который занимается разработками в области искусственного интеллекта и методов глубокого обучения, научили нейросеть «додумывать» изображение, генерируя его на основе нескольких пикселей. Препринт доступен на arXiv.org.

В художественных фильмах нередко используется прием «приблизить и улучшить», в результате которого в распоряжении героев оказывается изображение высокого разрешения, восстановленное из нескольких пикселей. На практике такое невозможно, однако исследователи из Google показали, что на основе пикселизованного изображения низкого разрешения можно не восстановить, а построить заново картинку, которая может быть очень похожей на реальное изображение.

Для улучшения изображения авторы использовали две сверточные нейросети, обученные на одинаковых наборах данных. Для тренировки использовались изображения из библиотек CelebA (двести тысяч фотографий лиц знаменитостей ) и LSUN Bedrooms (два миллиона фотографий спален), картинки были уменьшены до двух размеров: 32×32 пикселей (высокое разрешение) и 8×8 пикселей (низкое разрешение). 

При «восстановлении» изображения из картинки низкого разрешения главная нейросеть (prior network) отвечает за генерацию деталей картинки высокого разрешения, а вторая нейросеть — нейросеть условий (condition network) — отвечает за маппирование, сравнивая изображение низкого разрешения с уже известными картинками высокого разрешения. Фактически, благодаря нейросети условий главная нейросеть «понимает» что несколько коричневых пикселей исходного изображения нужно превратить в волосы на картинке высокого разрешения.

В результате программа из 64 цветных пикселей генерирует реалистичное изображение разрешением 32×32, которое отличается от исходной фотографии высокого разрешения. При этом некоторые изображения получились более правдоподобными, чем оригинальные фотографии — для проверки реалистичности изображения были привлечены добровольцы, которые после короткого обучения должны были указать, какая из картинок в паре является настоящей фотографией. 

По результатам опроса выяснилось, что испытуемые приняли за настоящие фотографии сгенерированные изображения знаменитостей в 10 процентах случаев, для фотографий спален этот показатель составил 28 процентов. При этом традиционные методы увеличения разрешения, такие как добавление пикселей по цвету соседних и бикубическая интерполяция, вообще не смогли «обмануть» испытуемых.

Ранее британская компания Magic Pony Technology демонстрировала интересные результаты «додумывания» исходного изображения с помощью методов машинного обучения, однако никаких технических подробностей о функционировании программы не сообщалось.