Функционирует при финансовой поддержке Федерального агентства по печати и массовым коммуникациям (Роспечать)

Waymo опубликовала большой датасет для обучения беспилотных автомобилей

Waymo

Компания Waymo опубликовала большой датасет, предназначенный для обучения алгоритмов беспилотных автомобилей. Он содержит в себе тысячу 20-секундных записей, собранных с пяти лидаров и пяти камер во время реальных поездок по четырем американским городам с разными условиями. Большая часть данных в датасете размечена и содержит в себе метки суммарно о 12 миллионах объектов вокруг автомобиля, сообщается в блоге Waymo. Датасет доступен только для некоммерческого использования.

Беспилотные автомобили используют множество алгоритмов, которые условно можно разбить на два основных типа: алгоритмы восприятия среды и алгоритмы управления. Первый тип отвечает за формирование в реальном времени детальной и точной картины происходящего вокруг автомобиля. В основном для этого используются нейросетевые алгоритмы компьютерного зрения, точность работы которых напрямую зависит от количества обучающих данных, причем эти данные практически невозможно с достаточной точностью создать искусственно. Из-за этого разработчикам беспилотников приходится тестировать на дороге десятки или даже сотни автомобилей-прототипов, собирающих большой объем данных о реальных ситуациях на дорогах.

Waymo, считающаяся одним из лидеров отрасли беспилотных автомобилей, опубликовала в открытом доступе датасет, собранный во время тестовых поездок ее автомобилей по американским городам, расположенным в штатах Калифорния, Аризона и Вашингтон. Датасет собран на основе тысячи поездок, различающихся между собой погодой, временем суток, количеством пешеходов и автомобилей вокруг, а также другими факторами. Из каждой поездки разработчики выбрали наиболее репрезентативный фрагмент длиной 20 секунд.


Данные, собранные из каждой поездки состоят из видеороликов с пяти камер и облаков точек с пяти лидаров (одного дальнего действия и четырех ближних). Для удобства дальнейшей обработки алгоритмами все данные синхронизированы и сформированы в виде единых пакетов данных за каждые 0,1 секунды поездки.

Данные размечены и на них нанесены границы вокруг объектов четырех главных типов: автомобили, пешеходы, велосипедисты и дорожные знаки. При этом пока размечены только все данные с лидаров, а с камер размечено только сто роликов. Всего эти метаданные описывают 12 миллионов объектов. В будущем компания планирует доразметить эти данные, а также опубликовать данные с новых поездок.

Датасет доступен только для некоммерческого использования, что может быть критичным для компаний, планирующих использовать свои беспилотные автомобили в составе сервисов такси или серийных автомобилях. Ранее Waymo под такими же условиями начала продавать боковые лидары собственной разработки.

Ранее другие исследовательские группы и компании уже публиковали большие датасеты для обучения беспилотных автомобилей. При этом зачастую они состоят только из данных с камер, как прошлогодний датасет Калифорнийского университета в Беркли, либо собраны в небольшом районе и недостаточно разнообразны, как в случае с датасетом Ford. Наиболее похожий датасет в начале 2019 года опубликовала компания Aptiv Autonomous Mobility. Ее набор данных nuScenes также состоит из тысячи 20-секундных фрагментов и содержит данные с шести камер, одного лидара, пяти радаров и других датчиков.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.