DeepMind научила нейросеть интуитивному пониманию физики

Исследователи из компании DeepMind научили модель машинного обучения понимать базовые принципы взаимодействия предметов и «удивляться» в случае физически невозможного поведения, например, если предмет внезапно исчезнет или не появится там, куда он двигался. В отличие от аналогичных алгоритмов, новый выучил базовые физические принципы самостоятельно, посмотрев 28 тысяч часов видео взаимодействия различных предметов. Статья опубликована в Nature Human Behaviour.

В машинном обучении за последнее десятилетие произошел огромный прогресс, и передовые алгоритмы для решения конкретных задач уже нередко справляются с ними лучше людей. Особенный интерес представляют большие языковые модели типа GPT и визуально-текстовые модели, такие как CLIP: они учатся не только выполнять конкретную задачу (предсказывать следующий токен в предложении или подбирать описание объектов), но и получают в процессе обучения представления о многих предметах и понятиях в мире, и это знание затем можно применять для широкого спектра задач. Тем не менее, исследователи машинного обучения считают, что даже этого все равно недостаточно для создания универсального искусственного интеллекта. К примеру, Ян Лекун (Yann LeCun) отмечал в недавней статье, что большие языковые модели после обучения удерживают большой массив знаний, но они лишены здравого смысла, который формируется у людей из опыта взаимодействия с окружающим миром.

Идея познания мира через наблюдение за поведением объектов в нем уже не первый раз используется в научных работах. Например, в 2019 году американские исследователи предложили реализовать в алгоритме поведение младенцев, которые наблюдают за миром, интуитивным образом формируют понимание базовых физических принципов (например, если предмет отпустить — он упадет) и удивляются, когда их ожидания от поведения объектов не совпадают с реальностью. Разработчики создали алгоритм, который выделяет объекты, следит за ними и «удивляется», когда ожидаемая динамика объектов не совпадает с наблюдениями.

Исследователи из DeepMind под руководством Луиса Пилото (Luis Piloto) применили аналогичный подход, но создали модель, которая сама составляет представление о том, как должны вести себя предметы. Она получила название PLATO (Physics Learning through Auto-encoding and Tracking Object). PLATO состоит из двух основных частей: модуля восприятия, который находит объекты на видео, и динамического модуля, который предсказывает движения объектов.

Модуль восприятия получает кадр, на котором есть объекты, и маски, на которых эти объекты выделены. Затем он кодирует эти изображения в эмбеддинг — сжатое векторное представление тех же данных, достаточное, чтобы из него можно было восстановить ключевые детали. Чтобы алгоритм научился этому, он превращал изображения в эмбеддинг, затем выполнял обратный процесс, реконструируя изображение, и во время обучения менял параметры кодировщика и декодировщика так, чтобы разница между исходным изображением и реконструированным была минимальной.

Динамический модуль работает на базе нейросети с долгой краткосрочной памятью (LSTM), которая «смотрит» на текущий эмбеддинг и все предыдущие, чтобы предсказать следующий, описывающий будущий кадр. Если затем предсказания модели не сошлись с реальным поведением объектов в ролике, это интерпретируется как удивление.

Чтобы обучить алгоритм, исследователи собрали датасет Physical Concepts, который они опубликовали на GitHub. Он состоит из двух частей с короткими процедурно сгенерированными роликами, на которых простые объекты двигаются и взаимодействуют друг с другом. Для обучения используется 300 тысяч видео, еще пять тысяч предназначено для тестирования. Также в нем есть часть для тестирования, в которой есть по пять тысяч роликов (с физически правильными и неправильными примерами) для проверки понимания алгоритмом пяти базовых понятий:

  • Прочность — объекты состоят из вещества и не могут проходить через друг друга.
  • Непрерывность — например, если объект двигается за двумя препятствиями, он будет виден до первого препятствия, после второго и между ними.
  • Постоянство — объект не может просто исчезнуть или появиться из ниоткуда.
  • Неизменность — объект сохраняет свои свойства, например, форму, на протяжении времени.
  • Инерция — объект обладает скоростью и направлением и препятствует их изменению при взаимодействии с другими.


Чтобы подтвердить, что схема с двумя модулями была верной, авторы обучили как полноценный алгоритм, так и упрощенный, в котором не использовался модуль распознавания объектов. Выяснилось, что полноценная PLATO корректно демонстрирует «удивление» гораздо чаще, чем упрощенная модель. Также исследователи использовали датасет из статьи их коллег из 2019 года и показали, что PLATO способна адаптироваться под измененные данные.

Машинное обучение используют не только для понимания базовых физических процессов. В 2018 году мы рассказывали о том, как нейросеть научили степени свободы статической системы, которые определяют ее свойства.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
OpenAI представила мультимодальную генеративную модель GPT-4o

Она умеет разговаривать, видеть, и имитирует эмоции