Исследователи из Google Research предложили новый подход к нейросетевому ренденрингу объемных сцен на основе обычных плоских фотографий. Они показали, что использование «сырых» кадров без предобработки позволяет добиться гораздо большего динамического диапазона и снизить уровень шума, благодаря чему это можно использовать для подавления шума и создания HDR-снимков, а не только создания снимков с новых ракурсов. Статья опубликована на arXiv.org.
В 2020 году группа американских исследователей, в составе которой был и руководитель новой работы Джонатан Бэррон (Jonathan Barron), представила метод нейросетевого рендеринга NeRF, который показал отличные результаты и завоевал популярность среди других исследователей. В отличие от большинства нейросетевых алгоритмов, NeRF-модель обучается не на множестве разных данных, чтобы хорошо работать в разных условиях, а на нескольких десятках или сотнях фотографий одной и той же сцены или объекта, снятых с разных ракурсов. Благодаря этому модель очень хорошо запоминает именно эту сцену и может генерировать ее снимки с новых ракурсов, сохраняя при этом форму объектов, отражения, прозрачность и другие свойства. При генерации новой фотографии модель получает точку в пространстве и угол наблюдения, а в ответ выдает значения плотности и цвета пространства вдоль получающегося луча. Так формируется один пиксель, затем то же самое повторяется для остальных.
Раньше для обучения NeRF-моделей использовали обычные фотографии, которые уже прошли предобработку в камере. Группа исследователей из Google Research под руководством Бэррона предложила использовать для обучения NeRF-моделей «сырые» данные в формате RAW. Такие фотографии имеют больше шума и на них еще не проведена дебайеризация, при которой алгоритм интерполирует цвета каждого пикселя (в фотоматрицах перед каждым фотодиодом стоит фильтр одного из трех основных цветов, поэтому они регистрируют интенсивность лишь одного цвета). Однако в них содержатся максимально достоверные, а не «усредненные» данные, к тому же, в более широком динамическом диапазоне.
По сути, исследователи использовали тот же подход, который уже применяется в смартфонах для съемки при плохом освещении: камера делает несколько снимков с большим уровнем шума, а затем создает из них один кадр, в который попадает полезная информация из отдельных зашумленных снимков. NeRF изначально разработана для формирования единого представления сцены из множества отдельных кадров, поэтому исследователи предположили, что она сумеет таким же образом вычленять полезную информацию из зашумленных фотографий, и оказались правы.
Авторы обучали модели для разных сцен на сотне снимков с разных ракурсов, а затем сравнили их с алгоритмами для подавления шума на основе алгоритмов машинного обучения. Оказалось, что NeRF-модели, обученные на одной сцене, показывают сравнимый результат с алгоритмами, обученными на огромных датасетах. Кроме того, авторы показали, как модели позволяют управлять экспозицией и создавать HDR-снимки, а также менять фокус.
Недавно мы рассказывали о том, как NeRF научили менять ракурс съемки уже записанного обычного видео.
Григорий Копиев
Для этого пациентам с эпилепсией и электродами в мозге пришлось ее послушать
Ученые из США декодировали отрывок песни Pink Floyd из записей нейронной активности 29 человек. Они выяснили, что в обработке музыки сильнее задействовано правое полушарие, а основную роль играют верхние височные извилины. Работа опубликована в PLoS Biology.