Ученые из Калифорнийского института в Беркли собрали DeepDrive — самую большую на сегодняшний день базу данных изображений для обучения беспилотных автомобилей. Она состоит из 100 тысяч снятых автомобилями видео, на которых размечены люди, автомобили, а также дорожные объекты и зоны. Датасет, описанный в препринте, выложенном на arXiv, в несколько раз превосходит все созданные на сегодняшний момент подобные базы данных.
Эффективность работы алгоритма машинного обучения напрямую зависит от величины обучающей выборки и ее разнообразия (недавно, например, разработчики MIT показали, как «предвзятость» датасета может превратить нейросеть в психопата). Именно поэтому крупные технологические компании и исследовательские лаборатории пользуются всеми возможностями для создания крупных баз данных. Например, в прошлом году датасет для обучения компьютера игре в StarCraft собрала Facebook.
Создание датасета для обучения беспилотных автомобилей — задача особая. Собранные данные должны быть тщательно размечены: на них должны быть выделены люди, объекты, дорожные знаки, а также дорожная разметка и тротуары. Он также должен быть очень большим: содержать большое количество дорог (например, магистралей и городских улиц) при разных погодных условиях.
DeepDrive, созданный командой разработчиков под руководством Тревора Даррелла (Trevor Darrell) содержит кадры из 100 тысяч видео, заснятых автомобилями (точное количество кадров исследователи не уточняют). На части датасета, состоящей из 70 тысяч видео, ученые обучили несколько систем разметки: выделения объектов, распознавания времени суток и погоды, дорожных обозначений, а также изображенных на снимке зон (дорога, тротуар, небо).
В базе данных содержатся изображения при различных погодных и природных условиях: это, по словам разработчиков, очень полезное дополнение, которое исключит попадание автомобиля в неизвестные условия.
Разработчики утверждают, что собранная ими база данных — самый масштабный на сегодняшний день датасет для обучения беспилотных автомобилей. Другой крупный датасет VPGNet, созданный в KAIST для распознавания дорожной разметки, содержит кадры из 21 тысячи видео. Скачать DeepDrive можно на его официальной странице на сайте университета.
В открытый доступ выкладывают большинство крупных баз данных: они помогают улучшить работу алгоритмов не только профессиональных разработчиков, но и любителей. Например, исследователи из Стэндфордского университета собрали базу данных рентгеновских снимков поврежденных конечностей, а в создании датасета для обучения чат-ботов поучаствовали реальные люди, рассказывающие выдуманные факты о себе.
Елизавета Ивтушок
В середине 90-х его называли самым разыскиваемым хакером в мире
Кевин Митник, бывший хакер и специалист в области информационной безопасности, умер 16 июля 2023 года в Лас-Вегасе в возрасте 59 лет. Причиной смерти стал рак поджелудочной железы, сообщает издание The Washington Post. Митник приобрел широкую известность в середине 1990-х после его ареста властями США и тюремного срока, полученного по обвинениям в многочисленных киберпреступлениях. Кевин Митник (Kevin Mitnick) родился 6 августа 1963 года в районе Ван-Найс в долине Сан-Фернандо штата Калифорния. Первые эксперименты по взлому телефонных и компьютерных сетей Митник начал еще в школе. К середине 1990-х он уже имел солидный опыт и две судимости за киберпреступления. В 1995 году Кевин Митник был вновь арестован ФБР после длительного расследования. Его обвинили в мошенничестве с использованием компьютерных систем и краже компьютерных данных, в результате чего был нанесен ущерб в несколько десятков миллионов долларов. После освобождения в 2000 году Кевин Митник стал консультантом в области информационной безопасности и основал компанию Mitnick Security Consulting. Кроме того, Митник написал в соавторстве несколько книг по информационной безопасности.