Нейросеть научилась координировать действия футболистов

Тарас Молотилин

Коллектив американских исследователей создал алгоритм, способный анализировать коллективное поведение игроков и стратегию в командных видах спорта, например, футболе. Программа обучалась на траекториях профессиональных футболистов в матчах Европейской лиги УЕФА и при этом сама определяла роли игроков по ходу игры, не привязываяс к их формальным позициям в составе команде. Исследование было представлено на конференции ICML 2017, а также описано в препринте, который доступен на сайте Disney Research.
Машинное обучение глубоких нейросетей уже неоднократно доказывало свое превосходство в задачах анализа и освоения различных игр. Настольные игры вроде шахмат и го уже окончательно покорились искусственному интеллекту, а на «победу» над компьютерными играми выделяется все больше ресурсов. С точки зрения машинного обучения и те и другие игры являются задачами обучения с подкреплением, и в них требуется обучить одного «агента», сколькими бы меньшими единицами (фигурами, юнитами) он ни управлял. Однако существуют игровые виды спорта, в том числе командные, где агентов несколько, и все они вынуждены взаимодействовать друг с другом. По понятной причине компьютеры на данный момент не могут соревноваться с людьми в таких видах спорта, зато могут анализировать игры и обучать своих агентов в симуляторах. До сих пор, однако, успехов в решении таких задач было немного из-за сложной системы взаимодействий агентов друг с другом.
В новой работе авторы предложили гибридную схему машинного обучения, которая сочетает две глубоких нейросети. Одна занималась тем, что анализировала действия игроков в зависимости от игрового контекста (движений мяча и игроков соперника), стараясь предсказать наилучший план действий каждого игрока в отдельной игровой ситуации. Эта система обучалась с подкреплением, то есть на каждое действие система получает определенный отклик от «среды». Например, если какая-то серия действий приводила к пропущенному мячу, нейросеть была оштрафована, а если виртуальные игроки забивали гол сопернику — награждена.

При этом вторая нейросеть обучалась без учителя, то есть работала с данными без меток, стараясь каким-то образом разбить игроков на несколько ролей. Находкой авторов стало то, что нейросеть исходно не знала, кто из игроков защитник, кто полузащитник, а кто — нападающий. По ходу игры нейросеть сама определяла роли на поле, причем роль не была привязана к конкретному игроку, то есть агенты по ходу розыгрыша могли играть на разных позициях.

Обе нейросети обучались по очереди, обмениваясь информацией друг с другом: одна знала, какие роли сейчас есть на поле, а другая — что агентам в разных ролях стоит предпринимать в каждый момент времени. В качестве простейшего теста нового алгоритма авторы изучали не футбольный матч, а простую постановку «хищник-жертва», в которой четырем агентам требовалось загнать в ловушку «жертву», перемещаясь по решетке лишь по определенным правилам. Оказалось, что предложенный алгоритм работает существенно лучше, чем предыдущие, более простые схемы обучения нескольких агентов «командной» работе.

Играть в футбол системы учились по записям 45 профессиональных матчей Европейской Лиги УЕФА. На этом этапе потребовалась еще одна нейросеть —

реккурентная

, — она выражала последовательность действий виртуальных игроков. В этом эксперименте также оказалось, что новая система работала значительно эффективнее предыдущих подходов, так называемого «имитационного» обучения. Однако в случае длинных розыгрышей точность работы алгоритма ухудшалась, так как игровые события развивались, как снежный ком, и предсказать их было сложнее.

Авторы подчеркивают, что футбол в их работе затрагивался лишь в качестве удобной тренировочной площадки. Другая область применения подобных систем — это коллективное поведение роботов и дронов в стае, которым необходимо слаженно действовать для достижения поставленной цели.

Ранее системам машинного интеллекта удавалось освоить игры вроде футбол, но в том случае, когда в их распоряжении был один агент. Например, алгоритм от DeepMind

научился

играть в «муравьиный футбол» с одним муравьем. Что касается командного футбола, на помощь иногда приходят и подходы из естественных наук. Так,

оказалось

, что движение футболистов описываются так же, как блуждание частиц в двухмерном слое жидкости.

Тарас Молотилин