Исследователи из компании DeepMind научили модель машинного обучения понимать базовые принципы взаимодействия предметов и «удивляться» в случае физически невозможного поведения, например, если предмет внезапно исчезнет или не появится там, куда он двигался. В отличие от аналогичных алгоритмов, новый выучил базовые физические принципы самостоятельно, посмотрев 28 тысяч часов видео взаимодействия различных предметов. Статья опубликована в Nature Human Behaviour.
В машинном обучении за последнее десятилетие произошел огромный прогресс, и передовые алгоритмы для решения конкретных задач уже нередко справляются с ними лучше людей. Особенный интерес представляют большие языковые модели типа GPT и визуально-текстовые модели, такие как CLIP: они учатся не только выполнять конкретную задачу (предсказывать следующий токен в предложении или подбирать описание объектов), но и получают в процессе обучения представления о многих предметах и понятиях в мире, и это знание затем можно применять для широкого спектра задач. Тем не менее, исследователи машинного обучения считают, что даже этого все равно недостаточно для создания универсального искусственного интеллекта. К примеру, Ян Лекун (Yann LeCun) отмечал в недавней статье, что большие языковые модели после обучения удерживают большой массив знаний, но они лишены здравого смысла, который формируется у людей из опыта взаимодействия с окружающим миром.
Идея познания мира через наблюдение за поведением объектов в нем уже не первый раз используется в научных работах. Например, в 2019 году американские исследователи предложили реализовать в алгоритме поведение младенцев, которые наблюдают за миром, интуитивным образом формируют понимание базовых физических принципов (например, если предмет отпустить — он упадет) и удивляются, когда их ожидания от поведения объектов не совпадают с реальностью. Разработчики создали алгоритм, который выделяет объекты, следит за ними и «удивляется», когда ожидаемая динамика объектов не совпадает с наблюдениями.
Исследователи из DeepMind под руководством Луиса Пилото (Luis Piloto) применили аналогичный подход, но создали модель, которая сама составляет представление о том, как должны вести себя предметы. Она получила название PLATO (Physics Learning through Auto-encoding and Tracking Object). PLATO состоит из двух основных частей: модуля восприятия, который находит объекты на видео, и динамического модуля, который предсказывает движения объектов.
Модуль восприятия получает кадр, на котором есть объекты, и маски, на которых эти объекты выделены. Затем он кодирует эти изображения в эмбеддинг — сжатое векторное представление тех же данных, достаточное, чтобы из него можно было восстановить ключевые детали. Чтобы алгоритм научился этому, он превращал изображения в эмбеддинг, затем выполнял обратный процесс, реконструируя изображение, и во время обучения менял параметры кодировщика и декодировщика так, чтобы разница между исходным изображением и реконструированным была минимальной.
Динамический модуль работает на базе нейросети с долгой краткосрочной памятью (LSTM), которая «смотрит» на текущий эмбеддинг и все предыдущие, чтобы предсказать следующий, описывающий будущий кадр. Если затем предсказания модели не сошлись с реальным поведением объектов в ролике, это интерпретируется как удивление.
Чтобы обучить алгоритм, исследователи собрали датасет Physical Concepts, который они опубликовали на GitHub. Он состоит из двух частей с короткими процедурно сгенерированными роликами, на которых простые объекты двигаются и взаимодействуют друг с другом. Для обучения используется 300 тысяч видео, еще пять тысяч предназначено для тестирования. Также в нем есть часть для тестирования, в которой есть по пять тысяч роликов (с физически правильными и неправильными примерами) для проверки понимания алгоритмом пяти базовых понятий:
Чтобы подтвердить, что схема с двумя модулями была верной, авторы обучили как полноценный алгоритм, так и упрощенный, в котором не использовался модуль распознавания объектов. Выяснилось, что полноценная PLATO корректно демонстрирует «удивление» гораздо чаще, чем упрощенная модель. Также исследователи использовали датасет из статьи их коллег из 2019 года и показали, что PLATO способна адаптироваться под измененные данные.
Машинное обучение используют не только для понимания базовых физических процессов. В 2018 году мы рассказывали о том, как нейросеть научили степени свободы статической системы, которые определяют ее свойства.
Григорий Копиев
Она превосходит по качеству все предыдущие модели
Компания OpenAI представила новую диффузионную генеративную модель машинного обучения под названием Sora, которая умеет создавать по текстовому описанию видео высокого качества с малым количеством артефактов, разрешением до 1920×1080 и продолжительностью до одной минуты. Помимо этого, Sora может дополнять новыми кадрами уже существующие видеофрагменты, а также создавать новые и анимировать уже существующие статичные изображения. Пост с кратким обзором возможностей модели, а также статья с некоторыми техническими подробностями опубликованы на сайте компании.