Разработчики из DeepMind научили систему искусственного интеллекта играть в Quake III Arena, как человек, сообщается в блоге лаборатории. С деталями можно ознакомиться здесь.
Обновлено: в мае 2019 года статья опубликована в Science.
Нейросети и системы искусственного интеллекта все чаще используются в играх. Они могут выступать как в роли компьютерных игроков, например, как в игре Elite Dangerous, так и в роли главного соперника — как это было в случае программой для игры в го Alpha Go. Их главное достоинство заключается в том, что они умеют учиться на прошлых ошибках, как это делают люди. Однако компьютерные программы все равно часто оказываются негибкими и вырабатывают стратегии действия только для определенной среды.
Программисты из лаборатории DeepMind научили алгоритм искусственного интеллекта адаптироваться к постоянно меняющимся картам в игре Quake III Arena. Для этого они использовали обучение с подкреплением (англ.reinforcement learning) — вид машинного обучения, при котором алгоритм обучается, не имея при этом обучающей выборки в виде пары «входные данные — ответ». В процессе тренировки компьютер получает отклик от среды — например, очки за успешное прохождение уровня или штрафные баллы за ошибки — и благодаря этому улучшает свою работу.
Для своей работы программисты использовали режим Capture The Flag, где главная цель игроков — захватить флаг соперника, при этом защитив свой. Победа присуждается той команде, которая за пять минут сумеет получить и удержать флаг оппонента большее количество раз. Чтобы компьютер научился вырабатывать стратегию поведения, а не просто запоминал карту, дизайн уровней каждый раз менялся. При этом алгоритм учился проходить игру так же, как и люди — наблюдая за окружающим пространство и выполняя действия через эмулятор игрового контроллера. При этом разработчики обучали не одного агента, а сразу нескольких, которые могли объединяться и играть между собой. Каждый из них, однако, получал собственный отклик от среды, что позволило агентам генерировать собственные внутренние цели, такие как захват флага.
В результате система, получившая название For The Win (FTW), научилась играть в Quake III Arena на достаточно высоком уровне. Выработанные ей стратегии оказались устойчивы к размеру карт, количеству участников в команде и поведению других игроков. Чтобы проверить систему ИИ в действии, сотрудники лаборатории DeepMind устроили турнир, в котором приняли участие 40 человек. Люди и агенты в играх были случайно перемешаны: они могли попасть как в одну команду, так и в противоположные. В результате, система искусственного интеллекта одержала больше побед, чем настоящие игроки. Кроме того, в опросе, который был проведен после игры, участники отметили, что алгоритм был более готов к сотрудничеству, чем сами люди. Компьютер также научился «человеческому» поведению — например, следовать за игроками своей команды и занимать базу врага.
По словам создателей, в будущем система ИИ вероятно сможет быть адаптирована и для более сложных игр, например StarCraft II или Dota 2. Подход к обучению алгоритма является достаточно общим, что позволяет использовать его в других условиях.
В прошлом система ИИ уже была использована для игры в StarCraft. Она смогла освоить тактики, обычно применяемые только опытными игроками.
Кристина Уласович