Нейросеть научили превращать 2D-картинки в 3D-модели на основе поверхности объектов

Исследователи из Калифорнийского университета в Беркли разработали алгоритм, который позволяет создавать трехмерные модели объектов, основываясь только на реконструкции его поверхности, видимой на плоском изображении. Алгоритм работает на основе сверточной нейросети и превосходит другие методы 3D-реконструкции по качеству полученных моделей. Статья с описанием работы нейросети доступна на сайте arXiv.

Современные технологии компьютерного зрения позволяют реконструировать объекты в трехмерном пространстве из его двухмерного изображения. Такие алгоритмы активно применяются в создании компьютерных игр, а также в других видах компьютерной графики. Сверточные нейросети часто применяются для создания подобных программ: получая на вход двухмерное цветное изображения объекта, нейросеть составляет «сетку» из вокселей (элементов объемного изображения), из которых состоит изображенный объект. Такой метод, однако, сильно ограничен параметром разрешения изображения: например, для реконструкции объекта, разрешение изображение которого равняется 50×50 пикселей, нейросети нужно будет составить «сетку», состоящую из 125 тысяч вокселей, что может потребовать много времени и оперативной памяти, несмотря на то, что не все полученные воксели в итоге будут использованы в 3D-модели.

Авторы новой работы предложили новый метод создания 3D-моделей на основе двухмерных изображений — иерархическое предсказание поверхности (hierarchical surface prediction, коротко HSP). Этот метод основывается на идее о том, что для успешной трехмерной реконструкции необходимы только те воксели, которые находятся на поверхности объекта, а все, что внутри и снаружи него, можно «выбросить», тем самым сократив время работы алгоритма и оперативную память компьютера. Для этого они разделяют трехмерную модель объекта на три части: пустые воксели (все, что находится вне объекта), полные воксели (то, которые находятся внутри трехмерного объекта) и границы объекта (воксели его двухмерной поверхности). Пустые и полные воксели «выбрасываются», а нейросеть реконструирует объект, основываясь только на его поверхности.

Алгоритм работает с использованием сверточной нейросети, которая принимает на вход один из трех видов изображений: цветное двухмерное изображение объекта, его карту глубины (англ. depth map) или трехмерную модель. После этого нейросеть реконструирует трехмерное изображение объекта в низком разрешении (16 вокселей, или 16×16×16 пикселей) и «выбрасывает» пустые и полные воксели. Изображение затем реконструируют еще раз, в лучшем разрешении, после чего процедура избавления от лишних вокселей проводится снова и снова. В результате получается трехмерная модель объекта в разрешении 256 вокселей (или 256×256×256 пикселей).

Авторы затем сравнили работу HSP с работой двух других методов трехмерной реконструкции, основанных на определении только пустых и полных вокселей в низком разрешении. Результаты работы HSP превосходят результаты работы других нейросетей по качеству полученных 3D-моделей.

Разработчики применяют разные методы машинного обучения для улучшения существующих методов создания 3D-моделей. В нашей заметке вы можете прочитать о том, как для создания реалистичных трехмерных моделей местности используют порождающие состязательные сети.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Твой дом — твоя личность

Какой характер будет у вашего умного дома?