Программисты из лаборатории DeepMind создали алгоритм, который может самостоятельно исследовать сцену и «додумывать», как находящиеся в ней предметы будут выглядеть с незнакомого ракурса. Ключевое отличие новой программы состоит в том, что для обучения ей не требуется дополнительная информация — нейросеть работает хорошо, даже если разработчики не сообщают, что за объекты находятся в комнате или где они расположены. Статья опубликована в журнале Science.
В основе современных систем машинного зрения лежат глубокие нейронные сети, которым, как правило, требуется большой набор размеченных изображений для обучения. На создание таких наборов уходит очень много времени, так как программистам приходится вручную описывать каждую деталь картинки. В результате многие аспекты сцены оказываются опущены, что ограничивает возможности алгоритмов машинного зрения. Чтобы преодолеть это ограничение, разработчики предложили сделать подход к обучению более «человечным» — они создали среду, в которой агент самостоятельно наблюдает трехмерную сцену с нескольких ракурсов, а затем делает ее рендеринг с другого, произвольного угла обзора.
Авторы новой работы под руководством Али Эслами (Ali Eslami) из Google DeepMind создали фреймворк Generative Query Network (GQN), в котором агент учится воспринимать окружающее пространство, обучаясь только на информации, полученной самостоятельно. GQN состоит из двух элементов — репрезентативной сети и генеративной сети. Когда агент исследует среду, он получает двухмерные изображения сцены, которые передаются репрезентативной сети. Она кодирует содержащуюся в ней информацию и представляет ее в виде вектора. Каждое дополнительное наблюдение позволяет накопить больше данных о находящихся в сцене объектах. Затем генеративная сеть на основе полученной информации предсказывает, как будет выглядеть сцена с нового, ранее не исследованного ракурса, и создает трехмерный рендер.
Так как репрезентативная сеть не знает, с каких именно ракурсов генеративному компоненту придется «представлять» сцену, она максимально достоверно и точно описывает — расположение предметов в комнате, их цвет, где находятся источники освещения и так далее. При этом GQN сама учится понимать, какие детали важны, а также как извлечь их из набора пикселей. Во время тренировки генеративная сеть узнает о том, как выглядят объекты в сцене, как они расположены по отношению друг к другу и какими свойствами обладает помещение. Кроме того, она умеет обобщать данные — например, если в разных сценах ей встречается небо, то она запомнит, что оно всегда голубое. Этот набор «концептов» позволяет алгоритму описать сцену в абстрактной манере, а генеративной сети — додумать «необходимые» детали.
Разработчики провели несколько экспериментов в виртуальном трехмерном мире, чтобы проверить работу Generative Query Network. Как показали тесты, GQN очень реалистично воспроизводит сцену — она создает довольно качественные изображения без знания о законах перспективы, освещения или окклюзии. Кроме того, алгоритм умеет подсчитывать количество объектов и классифицировать их, даже если они до конца не видны. В итоге предсказания программы выглядят очень естественно и почти неотличимы от оригинала.
Работа GQN пока что несовершенна, так как алгоритм обучался только на искусственно созданных данных. В будущем разработчики намерены использовать реальные сцены, а также сделать рендеры более качественными.
Недавно исследователи разработали алгоритм, создающий из двух снятых с близких ракурсов кадров новые снимки с других ракурсов. В отличие от GQN, он не делает снимки с принципиально другого угла обзора, но зато работает с реальными изображениями.
Кристина Уласович
Она расшифровала тона и слоги независимо друг от друга
Исследователи из Китая предложили модульную многопоточную нейронную сеть, которая на основе нейронных записей синтезировала речь на тоновом языке. С ее помощью удалось декодировать восемь тоновых слогов китайского языка. Авторы показали, что их метод точнее, чем классические базовые методы глубоких нейронных сетей. Исследование опубликовано в Science Advances.