Компания Google представила новый алгоритм RAISR, который использует машинное обучение для улучшения разрешения фотоснимков. В отличии от более традиционных методов он работает быстрее, а детали конечного изображения получаются менее размытыми. С подробностями работы алгоритма можно ознакомиться в статье, выложенной на сервере препринтов ArXiv.
Методы повышения разрешения изображения часто используются для того, чтобы рассмотреть подробности небольшого фрагмента снимка. Их суть заключается в увеличении количества пикселей на некоторую единицу длины (например, на сантиметр или на дюйм). На сегодняшний день существует множество подходов к решению этой задачи, однако наибольшей популярностью пользуются алгоритмы интерполяции (в частности, метод ближайшего соседа, билинейная и бикубическая интерполяция). Принцип их работы довольно прост: каждый новый пиксель достраивается на основе некоторого набора окружающих пикселей в соответствии с выбранным фильтром. Такие методы позволяют увеличить разрешение изображения довольно быстро, однако они имеют существенный недостаток — небольшие фрагменты получаются слишком гладкими и мелкие детали картинки теряются.
Новый алгоритм RAISR на основе машинного обучения позволяет обойти эту проблему. Он использует технологию суперразрешения, то есть улучшает качество изображения при его растяжении (увеличить истинное разрешение, то есть способность отделить, «разрешить» два объекта на картинке, алгоритм не даст). RAISR сопоставляет одни и те же изображения в хорошем и плохом разрешении, и применяет к некачественной картинке такие фильтры, которые в итоге позволят добиться разрешения, сравнимого с оригиналом. Тренировать алгоритм можно двумя способами: в одном случае алгоритм разучивает новые фильтры из прямого сопоставления изображений высокого и низкого качества, а в другом — картинку в плохом разрешении сначала улучшают с помощью другого простого метода, и только потом RAISR сопоставляет изображения и создает набор фильтров. И там, и там RAISR получает информацию о фильтрах на основе анализа контура объектов в изображениях (его направления, силы и связности).
По словам исследователей, «прямой» способ быстрее, однако второй метод лучше подходит для случаев, когда коэффициент масштабирования нецелочисленный. Ниже показана схема работы двухступенчатого метода:
В результате детали на изображении выглядят четче, и качество получившейся картинки сравнимо с качеством оригинала. Так выглядят cнимки, обработанные RAISR, после того, как он был обучен вторым способом с помощью 10 тысяч пар картинок в хорошем и плохом качестве:
Исследователи говорят о том, что RAISR может значительно улучшить метод линейной, бикубической интерполяции, а также
. Кроме того, алгоритм можно натренировать таким образом, что он научится решать проблему
и
(обычно возникает, когда на снимки попадает одежда в частую полоску).
Разработчики отмечают, что RAISR работает от 10 до 100 раз быстрее, чем современные «улучшители» разрешения, что позволяет его использовать как в графических редакторах, так и в смартфонах. В будущем, если работу алгоритма удастся усовершенствовать, то он сможет работать в качестве архиватора, который «распакует» файл, сжатый перед отправкой.
Недавно исследователи предложили использовать машинное обучение для раскрашивания черно-белых изображений. Авторы работы использовали сверточную нейронную сеть (CNN), для обучения которой использовались готовые классифицированные наборы изображений. Их программа определяет, к какому типу сцен относится изображение и ориентируется на похожие снимки при подборе цветов.
Кристина Уласович
Мнение редакции может не совпадать с мнением автора
Существует ли пространство-время само по себе? Другими словами, можно ли говорить о пространстве-времени, в котором нет ни одного физического тела? Чтобы ответить на этот вопрос, рассмотрим следующий мысленный эксперимент, известный как «ведро Ньютона».