Студенты из Стэнфордского университета с помощью команд на простом английском научили нейросеть проходить одну из самых сложных игр для видеоприставки Atari 2600. Препринт исследования опубликован на сайте arXiv.org.
Большинство систем искусственного интеллекта, предназначенных для прохождения видеоигр, используют обучение с подкреплением – метод, при котором система получает оценку своих действий от среды, в данном случае игры, — к примеру, зарабатывает очки прохождения. Она совершает случайные действия до получения награды, а затем пытается повторить свои действия в будущем. В качестве среды студенты решили использовать игру «Месть Монтесумы», в которой герой перемещается по подземелью, собирая сокровища. Эта игра не первый раз используется для тренировки искусственного интеллекта из-за особенностей геймплея. Дело в том, что в игре редко встречаются «награды», необходимые для успешного прохождения, такие, как ключ для открытия двери в следующую комнату, из-за чего искусственному интеллекту сложно понять, какие действия ведут к победе.
Разработчики придумали другой подход. Чтобы ускорить процесс обучения, они решили сначала научить нейросеть понимать команды, написанные естественным языком, а для обучения использовали данные в виде пар команда/скриншот действия героя. Затем авторы дали ИИ набор команд для успешного прохождения каждой комнаты в игре и дали ей попрактиковаться. Чтобы доказать, что ИИ действительно научился понимать команды, авторы дали ему пройти комнату с набором команд вроде «поднимись по лестнице» без накопленных данных о предыдущих тренировках. Таким образом, имитировалась ситуация, при которой он видел эту комнату впервые. Тем не менее, ИИ смог правильно интерпретировать команды человека и пройти уровень. Более того, он стал игнорировать команды, если находил более оптимальную стратегию для прохождения.
Инженеры оценили эффективность их подхода с помощью OpenAI Gym – платформы для разработки и сравнения алгоритмов обучения с подкреплением. Их алгоритм набрал 3500 очков, против 2500 у самого успешного конкурента. На данный момент только алгоритм Google DeepMind набрал больше – 6600 очков, однако его тренировка заняла в два раза больше времени. В дальнейшем исследователи планируют уменьшить количество инструкций, чтобы сделать алгоритм более независимым.
В 2016 году Google научил искусственный интеллект проходить трехмерный лабиринт, а также играть в футбол с помощью виртуального муравья. Кроме того, в 2015 году ученые из Высшей нормальной школы (École normale supérieure, Франция) создали программу, которая умеет учиться по видеоинструкциям с YouTube.
Григорий Копиев