Ученые из Калифорнийского института в Беркли собрали DeepDrive — самую большую на сегодняшний день базу данных изображений для обучения беспилотных автомобилей. Она состоит из 100 тысяч снятых автомобилями видео, на которых размечены люди, автомобили, а также дорожные объекты и зоны. Датасет, описанный в препринте, выложенном на arXiv, в несколько раз превосходит все созданные на сегодняшний момент подобные базы данных.
Эффективность работы алгоритма машинного обучения напрямую зависит от величины обучающей выборки и ее разнообразия (недавно, например, разработчики MIT показали, как «предвзятость» датасета может превратить нейросеть в психопата). Именно поэтому крупные технологические компании и исследовательские лаборатории пользуются всеми возможностями для создания крупных баз данных. Например, в прошлом году датасет для обучения компьютера игре в StarCraft собрала Facebook.
Создание датасета для обучения беспилотных автомобилей — задача особая. Собранные данные должны быть тщательно размечены: на них должны быть выделены люди, объекты, дорожные знаки, а также дорожная разметка и тротуары. Он также должен быть очень большим: содержать большое количество дорог (например, магистралей и городских улиц) при разных погодных условиях.
DeepDrive, созданный командой разработчиков под руководством Тревора Даррелла (Trevor Darrell) содержит кадры из 100 тысяч видео, заснятых автомобилями (точное количество кадров исследователи не уточняют). На части датасета, состоящей из 70 тысяч видео, ученые обучили несколько систем разметки: выделения объектов, распознавания времени суток и погоды, дорожных обозначений, а также изображенных на снимке зон (дорога, тротуар, небо).
В базе данных содержатся изображения при различных погодных и природных условиях: это, по словам разработчиков, очень полезное дополнение, которое исключит попадание автомобиля в неизвестные условия.
Разработчики утверждают, что собранная ими база данных — самый масштабный на сегодняшний день датасет для обучения беспилотных автомобилей. Другой крупный датасет VPGNet, созданный в KAIST для распознавания дорожной разметки, содержит кадры из 21 тысячи видео. Скачать DeepDrive можно на его официальной странице на сайте университета.
В открытый доступ выкладывают большинство крупных баз данных: они помогают улучшить работу алгоритмов не только профессиональных разработчиков, но и любителей. Например, исследователи из Стэндфордского университета собрали базу данных рентгеновских снимков поврежденных конечностей, а в создании датасета для обучения чат-ботов поучаствовали реальные люди, рассказывающие выдуманные факты о себе.
Елизавета Ивтушок