Поиграть в него можно прямо в браузере
Microsoft представила генеративную модель WHAMM (World and Human Action MaskGIT Model), предназначенную для создания интерактивных игровых сред в реальном времени. Возможности модели компания продемонстрировала на примере классического шутера Quake II, в который можно сыграть прямо в браузере на странице в Copilot Labs. Архитектура модели WHAMM включает два этапа. Основной трансформер (500 миллион параметров) получает 9 предыдущих пар кадр-действие и формирует грубый набросок нового кадра размером 640 × 360 пикселей. Затем другой трансформер (250 миллионов параметров) итеративно улучшает это изображение. В результате удается генерировать интерактивный видеоряд со скоростью свыше 10 кадров в секунду. Модель обучена на данных одной недели геймплея Quake II, собранных на одном уровне. Пользователи могут перемещаться по имитируемому моделью уровню, стрелять и взаимодействовать с объектами (например, взрывать бочки). Но есть и неточности: например, модель ошибается в счетчиках патронов и здоровья, враги выглядят размыто и бой с ними не всегда корректен, а из-за короткого контекста всего 0,9 секунды модель быстро забывает об объектах вне поля зрения.
Загрузка галереи
В августе 2024 года инженеры из Google Research, Google DeepMind и Тель-Авивского университета смогли воссоздать с помощью нейросети другой легендарный шутер. Разработанный ими нейросетевой игровой движок GameNGen симулирует в реальном времени классический DOOM. В основе движка лежит диффузионная нейросеть, которая предсказывает каждый следующий кадр игры, используя последовательность ранее сгенерированных предыдущих кадров и поток команд игрока на входе. Модель оказалась способна генерировать полноценный игровой процесс в реальном времени со скоростью более 20 кадров в секунду и с качеством, сопоставимым с графикой оригинальной игры.
Модель GameNGen симулирует игровой процесс в реальном времени с качеством, почти неотличимым от оригинала
Исследователи из Google Research, Google DeepMind и Тель-Авивского университета представили GameNGen — первый игровой движок, полностью управляемый нейросетью, который обеспечивает взаимодействие игрока с виртуальной средой в реальном времени с высоким качеством генерируемой графики. GameNGen может симулировать классическую игру DOOM со скоростью более 20 кадров в секунду, используя для этого вычислительные мощности одного TPU. Качество изображения сопоставимо с алгоритмом сжатия JPEG, а людям на первый взгляд очень сложно отличить реальную игру от симуляции. GameNGen обучается в два этапа: сначала агент с помощью обучения с подкреплением учится играть в игру, а затем диффузионная модель обучается генерировать следующий кадр на основе последовательности предыдущих кадров и действий игрока. Статья с описанием движка опубликована на странице проекта в GitHub.