Мексиканские физики предложили метод статистического анализа автобусной транспортной сети, который позволяет кластеризовать без учителя и наглядно сравнивать разные участки маршрута в зависимости от скоростного режима на них. Они применили свои наработки к данным о работе метробуса в Мехико, собранным за год. Исследование опубликовано в Scientific Reports.
Метробус или скоростной автобус — это система организации городского автобусного сообщения, для которой характерно частичное или полное отделение автобусных линий от дорог общего пользования. Она наиболее распространена в странах Северной и Южной Америки в качестве дешевой и более простой альтернативы метро.
Во многих городах на автобусы устанавливаются системы GPS-навигации, что позволяет отслеживать положение и скорость каждого транспортного средства. Эта информация дает общую картину системы в режиме реального времени и может использоваться для улучшения общей производительности и контроля расписания. Такие массивы данных уже были использованы учеными для анализа времени, которые тратят автомобили на преодоление определенных участков дороги, классификации траекторий машин и даже для оценки загруженности транспортной сети с помощью нейронных сетей. Тем не менее крайне мало исследований было сосредоточено на систематическом анализе всей информации о транспортной системе, ее зонировании и выделении отдельных моделей активности.
Хаспе Мартинес-Гонсалес (Jaspe Martínez-González) и Алехандро Риаскос (Alejandro Riascos) из Национального автономного университета Мексики использовали данные о положении и скорости автобусов системы скоростного транспорта Мехико, чтобы провести их зональный статистический анализ. В результате им удалось построить сети подобия, которые помогли произвести кластеризацию без учителя зон по скоростям.
Физики собрали данные из отрытой базы, организованной администрацией города Мехико, за 383 дня с февраля 2020 по апрель 2021 года. Для каждого месяца они строили распределение скоростей. На выбранный период пришлась одна из волн пандемии COVID-19, что отразилось на существенном снижении трафика с апреля по август 2020 года. Примечательно, что это не повлияло на скоростной профиль в эти месяцы.
Система метробуса в Мехико состоит из 7 маршрутов общей протяженностью 225 километров и 195 станций. Авторы разделили ее на 214 сегментов (зон), большинство из которых представляют собой прямоугольники, покрывающие конкретный участок города, включающий в себя отрезок линии между двумя станциями. 9 сегментов были выбраны в виде многоугольников и покрывали области пересечения линий.
Каждый сегмент физики характеризовали своим распределением скоростей. Чтобы оценить то, насколько сегменты в этом различны, они вычисляли симметризованное расстояние Кульбака — Лейблера для каждой их пары. Стремясь лучше понять сходство всех распределений, авторы строили неориентированные сети подобия (графы). В качестве вершин они использовали сегменты, а в качестве связей — вычисленные расстояния. Чтобы сеть была информативна, ученые вводили фильтрацию расстояний, оставляя только те связи, которые превышают некоторый порог H.
Таким способом возникала неконтролируемая (без учителя) кластеризация сети на несвязанные части, детальностью которой можно было управлять, меняя H. Оказалось, что разные кластеры обладают различными скоростными распределениями. Так, для наибольшего значения порога H, равного 0,357, при котором сеть остается несвязанной, образовывалось два кластера. Они существенно отличались по распределению скоростей выше 10 метров в секунду. В то же время, для H, равного 0,05, кластеров становилось уже 6, а различия между ними возникали в отдельных скоростных диапазонах. Авторы наносили результаты кластеризации на карту с помощью разных цветов, что позволяло зрительно оценить схожесть скоростных режимов на разных участках дорог.
Физики подчеркивают универсальность и гибкость предложенного подхода, что позволит использовать его для любых транспортных систем, причем не только для анализа скоростей, но и других параметров, таких, например, как следование расписанию, пассажиропотока и выбросов углекислого газа. Они надеются, что анализ подобия поможет в будущем разработать стратегии, направленные на улучшение работы этих систем.
Статистический анализ и кластеризация — это универсальные и максимально междисциплинарные инструменты. Они помогают разбираться с явлениями в широком диапазоне задач, начиная от футбола и заканчивая мемами.
Марат Хамадеев