Специалисты из Google и Массачусетского технологического института разработали алгоритм на основе нейросетей, который позволяет обрабатывать изображения — например, осветлять темные фотографии. В отличие от аналогичных существующих алгоритмов, новая разработка способна обрабатывать фото в реальном времени, используя для этого мощности смартфона. Разработка будет представлена на конференции по компьютерной графике SIGGRAPH 2017, а посвященная ей статья опубликована в журнале ACM Transactions on Graphics.
Камеры в современных смартфонах постоянно улучшаются, зачастую за счет повышения качества линз или матрицы. Но, поскольку они имеют очень малый размер, дальнейшее их развитие становится все сложнее и обходится дороже. Поэтому многие производители концентрируются на программном, а не аппаратном улучшении качества получаемых снимков. К примеру, создатели ряда моделей отказались от механической стабилизации изображения в пользу алгоритмической.
Компания Google также решила пойти по этому пути и уже в нескольких поколениях своих смартфонов включает в приложение камеры функцию HDR+, которая объединяет несколько кадров с разной экспозицией в один, тем самым расширяя его динамический диапазон, и убирает слишком темные и светлые области. Недостаток этой функции заключается в том, что она применяется к уже отснятому изображению, из-за чего пользователь не может оценить конечный результат во время съемки.
Специалисты Google, совместно с коллегами из Лаборатории информационных технологий и искусственного интеллекта MIT, решили оптимизировать алгоритм работы камеры таким образом, чтобы обработка происходила в реальном времени.
В основе нового алгоритма лежит сверточная нейросеть. Полностью обрабатывать изображение в высоком разрешении и в реальном времени пока не представляется возможным из-за ограниченной мощности смартфонов. Поэтому исследователи использовали сложную систему, которая выполняет большую часть вычислений на уменьшенной копии исходного изображения, а затем переносит результаты на фотографию в высоком разрешении.
Инженеры натренировали алгоритм на наборе из пяти тысяч пар фотографий: исходных и отретушированных профессиональными фотографами. Исследователи протестировали программу на реальном смартфоне, и алгоритм смог в реальном времени выдавать на экран обработанное изображение с разрешением 1920×1080 пикселей и частотой обновления в 40–50 герц.
Разработчики считают, что эта технология может быть внедрена в смартфоны в обозримой перспективе и позволит пользователям видеть качественно обработанные фотографии еще до того, как они сняты, не опасаясь при этом за расход заряда аккумулятора.
В начале 2017 года специалисты из Google представили другой интересный проект по обработке изображений с помощью нейросетей. Разработанная ими программа позволяет значительно улучшать разрешение фотографий, к примеру, превращая изображение 8×8 пикселей в 32×32 пикселя. Похожую разработку компания уже начала использовать в своей социальной сети Google+.
Григорий Копиев
Она расшифровала тона и слоги независимо друг от друга
Исследователи из Китая предложили модульную многопоточную нейронную сеть, которая на основе нейронных записей синтезировала речь на тоновом языке. С ее помощью удалось декодировать восемь тоновых слогов китайского языка. Авторы показали, что их метод точнее, чем классические базовые методы глубоких нейронных сетей. Исследование опубликовано в Science Advances.