Нейросеть научили ставить геотег на снимки еды и котиков

Тарас Молотилин

Коллектив ученых из Google и Рейнско-Вестфальского технического университета Ахена создал программу PlaNet, которая по фотоснимку (любому, даже изображению еды или домашнего животного) определяет, в какой точке Земли он был сделан. Новый алгоритм основан на обучении искусственной нейронной сети и отличается от предшественников тем, что опирается не только на какие-либо хорошо известные достопримечательности, а использует весь доступный комплекс деталей, например, пейзаж, цвета, особенности архитектуры, присутствие характерных животных и растений. Препринт работы выложен на arXiv.org.
Авторы собрали базу из 126 миллионов фотографий с доступными тегами геолокации, а затем разбили поверхность земли на квадраты так, чтобы на каждый из них приходилось не более 10000 снимков. Таким образом, сетка разбиения была реже в малонаселенных регионах и гуще, например, в крупных городах. Квадраты, на которые приходилось меньше 50 фотографий (океаны, крайний север), в работу вообще не включали.
Используя три четверти отобранных фотографий, исследователи обучали сверточную нейронную сеть, которая на выходе выдавала распределение вероятностей по квадратам: чем больше значение, тем больше вероятность, что снимок был сделан в этом регионе. Параметры подбирались так, чтобы для фото с известным геотегом вероятность в «нужном» квадрате стремилась к 100 процентам, а во всех остальных — к нулю.

Оставшуюся четверть снимков использовали для проверки работоспособности сети. Оказалось, что 3,6 процента все фотографий программа может опознать с точностью до улицы, 10,1 процента — в пределах города, 28,4 процента — с точностью до страны и 48 процентов — до континента. При этом, если среди ответов смотреть не на одного, а на пять лучших претендентов, эта точность повышалась почти в два раза.

Авторы также устроили соревнование между PlaNet и людьми. Для этого использовались данные игры

Geoguessr

, в которой пользователям предлагают определить местоположение на карте, пользуясь панорамами улиц. При этом не разрешалось «осматриваться» вокруг или переходить к соседним панорамам. По итогам 50 раундов PlaNet выиграл 28 раз, при этом его средняя ошибка составила 1131,7 километров. Люди ошибались в среднем на 2320,75 километров.

Среди преимуществ PlaNet ученые отмечают независимость от крупных достопримечательностей, а также то, что снимок не обязательно должен быть сделан в черте города. Кроме того, в аналогичных программах чаще всего выбирается единственный вариант местоположения, тогда как PlaNet выдает распределение вероятностей по нескольким регионам, что позволяет оценить характерную погрешность.

Из предшественников PlaNet можно назвать

Im2GPS

. В рамках этого проекта местоположение определяется при помощи сравнения заданного снимка с базой Flickr. Кроме того, ранее для решения этой задачи

использовались

комбинации снимков с земли и с воздуха, а также анализ локальных объектов, присутствующих на фотографии (

PDF

). Особенно необычным было решение проекта

Skyline2GPS

: авторы сравнивали линию горизонта на фотографии с трехмерной моделью города.

Тарас Молотилин