Нейросеть научилась координировать действия футболистов

Перемещение игроков по футбольному полю в реальном матче.
Hoang M. Le et al./ International Conference on Machine Learning (ICML) 2017
Коллектив американских исследователей создал алгоритм, способный анализировать коллективное поведение игроков и стратегию в командных видах спорта, например, футболе. Программа обучалась на траекториях профессиональных футболистов в матчах Европейской лиги УЕФА и при этом сама определяла роли игроков по ходу игры, не привязываяс к их формальным позициям в составе команде. Исследование было представлено на конференции ICML 2017, а также описано в препринте, который доступен на сайте Disney Research.
Машинное обучение глубоких нейросетей уже неоднократно доказывало свое превосходство в задачах анализа и освоения различных игр. Настольные игры вроде шахмат и го уже окончательно покорились искусственному интеллекту, а на «победу» над компьютерными играми выделяется все больше ресурсов. С точки зрения машинного обучения и те и другие игры являются задачами обучения с подкреплением, и в них требуется обучить одного «агента», сколькими бы меньшими единицами (фигурами, юнитами) он ни управлял. Однако существуют игровые виды спорта, в том числе командные, где агентов несколько, и все они вынуждены взаимодействовать друг с другом. По понятной причине компьютеры на данный момент не могут соревноваться с людьми в таких видах спорта, зато могут анализировать игры и обучать своих агентов в симуляторах. До сих пор, однако, успехов в решении таких задач было немного из-за сложной системы взаимодействий агентов друг с другом.
В новой работе авторы предложили гибридную схему машинного обучения, которая сочетает две глубоких нейросети. Одна занималась тем, что анализировала действия игроков в зависимости от игрового контекста (движений мяча и игроков соперника), стараясь предсказать наилучший план действий каждого игрока в отдельной игровой ситуации. Эта система обучалась с подкреплением, то есть на каждое действие система получает определенный отклик от «среды». Например, если какая-то серия действий приводила к пропущенному мячу, нейросеть была оштрафована, а если виртуальные игроки забивали гол сопернику — награждена.
Обе нейросети обучались по очереди, обмениваясь информацией друг с другом: одна знала, какие роли сейчас есть на поле, а другая — что агентам в разных ролях стоит предпринимать в каждый момент времени. В качестве простейшего теста нового алгоритма авторы изучали не футбольный матч, а простую постановку «хищник-жертва», в которой четырем агентам требовалось загнать в ловушку «жертву», перемещаясь по решетке лишь по определенным правилам. Оказалось, что предложенный алгоритм работает существенно лучше, чем предыдущие, более простые схемы обучения нескольких агентов «командной» работе.
Авторы подчеркивают, что футбол в их работе затрагивался лишь в качестве удобной тренировочной площадки. Другая область применения подобных систем — это коллективное поведение роботов и дронов в стае, которым необходимо слаженно действовать для достижения поставленной цели.
Ранее системам машинного интеллекта удавалось освоить игры вроде футбол, но в том случае, когда в их распоряжении был один агент. Например, алгоритм от DeepMind научился играть в «муравьиный футбол» с одним муравьем. Что касается командного футбола, на помощь иногда приходят и подходы из естественных наук. Так, оказалось, что движение футболистов описываются так же, как блуждание частиц в двухмерном слое жидкости.
Тарас Молотилин