DeepMind
Исследователи из компании DeepMind научили модель машинного обучения понимать базовые принципы взаимодействия предметов и «удивляться» в случае физически невозможного поведения, например, если предмет внезапно исчезнет или не появится там, куда он двигался. В отличие от аналогичных алгоритмов, новый выучил базовые физические принципы самостоятельно, посмотрев 28 тысяч часов видео взаимодействия различных предметов. Статья опубликована в Nature Human Behaviour.
В машинном обучении за последнее десятилетие произошел огромный прогресс, и передовые алгоритмы для решения конкретных задач уже нередко справляются с ними лучше людей. Особенный интерес представляют большие языковые модели типа GPT и визуально-текстовые модели, такие как CLIP: они учатся не только выполнять конкретную задачу (предсказывать следующий токен в предложении или подбирать описание объектов), но и получают в процессе обучения представления о многих предметах и понятиях в мире, и это знание затем можно применять для широкого спектра задач. Тем не менее, исследователи машинного обучения считают, что даже этого все равно недостаточно для создания универсального искусственного интеллекта. К примеру, Ян Лекун (Yann LeCun) отмечал в недавней статье, что большие языковые модели после обучения удерживают большой массив знаний, но они лишены здравого смысла, который формируется у людей из опыта взаимодействия с окружающим миром.
Идея познания мира через наблюдение за поведением объектов в нем уже не первый раз используется в научных работах. Например, в 2019 году американские исследователи предложили реализовать в алгоритме поведение младенцев, которые наблюдают за миром, интуитивным образом формируют понимание базовых физических принципов (например, если предмет отпустить — он упадет) и удивляются, когда их ожидания от поведения объектов не совпадают с реальностью. Разработчики создали алгоритм, который выделяет объекты, следит за ними и «удивляется», когда ожидаемая динамика объектов не совпадает с наблюдениями.
Исследователи из DeepMind под руководством Луиса Пилото (Luis Piloto) применили аналогичный подход, но создали модель, которая сама составляет представление о том, как должны вести себя предметы. Она получила название PLATO (Physics Learning through Auto-encoding and Tracking Object). PLATO состоит из двух основных частей: модуля восприятия, который находит объекты на видео, и динамического модуля, который предсказывает движения объектов.
Схема обучения и работы алгоритма
Luis Piloto et al. / Nature Human Behaviour, 2022
Модуль восприятия получает кадр, на котором есть объекты, и маски, на которых эти объекты выделены. Затем он кодирует эти изображения в эмбеддинг — сжатое векторное представление тех же данных, достаточное, чтобы из него можно было восстановить ключевые детали. Чтобы алгоритм научился этому, он превращал изображения в эмбеддинг, затем выполнял обратный процесс, реконструируя изображение, и во время обучения менял параметры кодировщика и декодировщика так, чтобы разница между исходным изображением и реконструированным была минимальной.
Динамический модуль работает на базе нейросети с долгой краткосрочной памятью (LSTM), которая «смотрит» на текущий эмбеддинг и все предыдущие, чтобы предсказать следующий, описывающий будущий кадр. Если затем предсказания модели не сошлись с реальным поведением объектов в ролике, это интерпретируется как удивление.
Чтобы обучить алгоритм, исследователи собрали датасет Physical Concepts, который они опубликовали на GitHub. Он состоит из двух частей с короткими процедурно сгенерированными роликами, на которых простые объекты двигаются и взаимодействуют друг с другом. Для обучения используется 300 тысяч видео, еще пять тысяч предназначено для тестирования. Также в нем есть часть для тестирования, в которой есть по пять тысяч роликов (с физически правильными и неправильными примерами) для проверки понимания алгоритмом пяти базовых понятий:
Чтобы подтвердить, что схема с двумя модулями была верной, авторы обучили как полноценный алгоритм, так и упрощенный, в котором не использовался модуль распознавания объектов. Выяснилось, что полноценная PLATO корректно демонстрирует «удивление» гораздо чаще, чем упрощенная модель. Также исследователи использовали датасет из статьи их коллег из 2019 года и показали, что PLATO способна адаптироваться под измененные данные.
Машинное обучение используют не только для понимания базовых физических процессов. В 2018 году мы рассказывали о том, как нейросеть научили степени свободы статической системы, которые определяют ее свойства.
Григорий Копиев
Поиграть в него можно прямо в браузере
Microsoft представила генеративную модель WHAMM (World and Human Action MaskGIT Model), предназначенную для создания интерактивных игровых сред в реальном времени. Возможности модели компания продемонстрировала на примере классического шутера Quake II, в который можно сыграть прямо в браузере на странице в Copilot Labs. Архитектура модели WHAMM включает два этапа. Основной трансформер (500 миллион параметров) получает 9 предыдущих пар кадр-действие и формирует грубый набросок нового кадра размером 640 × 360 пикселей. Затем другой трансформер (250 миллионов параметров) итеративно улучшает это изображение. В результате удается генерировать интерактивный видеоряд со скоростью свыше 10 кадров в секунду. Модель обучена на данных одной недели геймплея Quake II, собранных на одном уровне. Пользователи могут перемещаться по имитируемому моделью уровню, стрелять и взаимодействовать с объектами (например, взрывать бочки). Но есть и неточности: например, модель ошибается в счетчиках патронов и здоровья, враги выглядят размыто и бой с ними не всегда корректен, а из-за короткого контекста всего 0,9 секунды модель быстро забывает об объектах вне поля зрения.