Плохие водители научат беспилотные автомобили хорошему вождению

Американские исследователи предложили обучать алгоритмы управления беспилотных автомобилей на записях реальных поездок людей, на которых они ездят как оптимально, так и неоптимально. Благодаря этому алгоритм может получить данные о плохих примерах вождения в реальном мире, не прибегая к обучению с подкреплением, при котором он водит таким образом самостоятельно и подвергает опасности себя и окружающих. Статья с описанием метода и его экспериментальной проверки опубликована на arXiv.org.

На сегодняшний день ни одному разработчику беспилотных автомобилей не удалось создать автомобиль пятого уровня автономности по классификации SAE, способный ехать без помощи человека в любых ситуациях. Из-за этого разработчики в этой области продолжают искать оптимальные пути обучения таких автомобилей. Как правило, помимо прописывания общих правил вождения, для этого применяется имитационное обучение, при котором алгоритм управления автомобилем получает данные реальных поездок людей и после обучения старается максимально близко воспроизвести поведение водителя-человека. Обычно в датасетах для таких алгоритмах содержатся записи хороших примеров вождения, но при реальных поездках автомобиль может попасть и в другие ситуации, данных о которых он не получал. Такое расхождение принято называть ковариантным сдвигом и обычно его решают с помощью обучения с подкреплением, при котором алгоритм уже самостоятельно выполняет различные действия и получает оценку своих действий. Однако в случае с вождением в реальном мире это означает, что в некоторых случаях алгоритм будет создавать опасность для себя и окружающих.

Майкл Литман (Michael Littman) и его коллеги из Университета Брауна предложили обучать алгоритмы управления беспилотными автомобилями с помощью водителей, совершающих неоптимальные решения во время вождения. В основе метода лежит запись поездок водителя, при котором собирается массив пар типа «состояние-действие» для каждого момента времени. После записи данные необходимо разметить, присваивая каждому действию положительную или отрицательную оценку в соответствии с тем, насколько оптимальным оно было в данной ситуации. После обучения алгоритм способен самостоятельно оценивать ситуацию и принимать решения о дальнейших действиях.

Исследователи создали фреймворк ReNeg, состоящий из двух нейросетей PNet и FNet, отвечающих за принятие решений и их оценку, соответственно. Авторы начали с известной сверточной нейросети Inception v3, натренированной на датасете различных объектов ImageNet, после чего модифицировали ее архитектуру и обучили на своих данных. В качестве данных для обучения они записали час езды: 20 минут нормальной езды, 20 минут езды по синусоиде, и 20 минут езды с перестроениями из ряда в ряд к краю дороги. В качестве метрики корректности действий авторы выбрали угол и направления поворота руля. Авторы отмечают, что они записывали не реальное вождение, а езду в симуляторе, потому что у них не было другой возможности, но алгоритм применим и к реальным записям.

Во время экспериментов исследователи проверяли обученные модели, давая им ездить по виртуальной дороге, и записывая время до столкновения или полного выезда за пределы дороги. Выяснилось, что модель, обученная с негативными примерами, продержалась на дороге без аварий в среднем в полтора раза дольше — примерно 110 секунд против примерно 70.

Ранее на методы разработки и обучения беспилотных автомобилей уже повлияли скучающие водители. Компании Waymo и Ford рассказали, что их водители-испытатели нередко не следят за дорогой и даже засыпают во время тестовых заездов, причем в некоторых случаях не помогает даже дублирование водителя вторым сотрудником и установка будильника. Из-за этого обе компании решили «перескочить» через третий уровень автономности и сконцентрировать усилия на создании беспилотников четвертого и пятого уровней.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
«Транспорт в городах, удобных для жизни»

Как транспортная система влияет на город