Исследователи из компании DeepMind научили модель машинного обучения понимать базовые принципы взаимодействия предметов и «удивляться» в случае физически невозможного поведения, например, если предмет внезапно исчезнет или не появится там, куда он двигался. В отличие от аналогичных алгоритмов, новый выучил базовые физические принципы самостоятельно, посмотрев 28 тысяч часов видео взаимодействия различных предметов. Статья опубликована в Nature Human Behaviour.
В машинном обучении за последнее десятилетие произошел огромный прогресс, и передовые алгоритмы для решения конкретных задач уже нередко справляются с ними лучше людей. Особенный интерес представляют большие языковые модели типа GPT и визуально-текстовые модели, такие как CLIP: они учатся не только выполнять конкретную задачу (предсказывать следующий токен в предложении или подбирать описание объектов), но и получают в процессе обучения представления о многих предметах и понятиях в мире, и это знание затем можно применять для широкого спектра задач. Тем не менее, исследователи машинного обучения считают, что даже этого все равно недостаточно для создания универсального искусственного интеллекта. К примеру, Ян Лекун (Yann LeCun) отмечал в недавней статье, что большие языковые модели после обучения удерживают большой массив знаний, но они лишены здравого смысла, который формируется у людей из опыта взаимодействия с окружающим миром.
Идея познания мира через наблюдение за поведением объектов в нем уже не первый раз используется в научных работах. Например, в 2019 году американские исследователи предложили реализовать в алгоритме поведение младенцев, которые наблюдают за миром, интуитивным образом формируют понимание базовых физических принципов (например, если предмет отпустить — он упадет) и удивляются, когда их ожидания от поведения объектов не совпадают с реальностью. Разработчики создали алгоритм, который выделяет объекты, следит за ними и «удивляется», когда ожидаемая динамика объектов не совпадает с наблюдениями.
Исследователи из DeepMind под руководством Луиса Пилото (Luis Piloto) применили аналогичный подход, но создали модель, которая сама составляет представление о том, как должны вести себя предметы. Она получила название PLATO (Physics Learning through Auto-encoding and Tracking Object). PLATO состоит из двух основных частей: модуля восприятия, который находит объекты на видео, и динамического модуля, который предсказывает движения объектов.
Модуль восприятия получает кадр, на котором есть объекты, и маски, на которых эти объекты выделены. Затем он кодирует эти изображения в эмбеддинг — сжатое векторное представление тех же данных, достаточное, чтобы из него можно было восстановить ключевые детали. Чтобы алгоритм научился этому, он превращал изображения в эмбеддинг, затем выполнял обратный процесс, реконструируя изображение, и во время обучения менял параметры кодировщика и декодировщика так, чтобы разница между исходным изображением и реконструированным была минимальной.
Динамический модуль работает на базе нейросети с долгой краткосрочной памятью (LSTM), которая «смотрит» на текущий эмбеддинг и все предыдущие, чтобы предсказать следующий, описывающий будущий кадр. Если затем предсказания модели не сошлись с реальным поведением объектов в ролике, это интерпретируется как удивление.
Чтобы обучить алгоритм, исследователи собрали датасет Physical Concepts, который они опубликовали на GitHub. Он состоит из двух частей с короткими процедурно сгенерированными роликами, на которых простые объекты двигаются и взаимодействуют друг с другом. Для обучения используется 300 тысяч видео, еще пять тысяч предназначено для тестирования. Также в нем есть часть для тестирования, в которой есть по пять тысяч роликов (с физически правильными и неправильными примерами) для проверки понимания алгоритмом пяти базовых понятий:
Чтобы подтвердить, что схема с двумя модулями была верной, авторы обучили как полноценный алгоритм, так и упрощенный, в котором не использовался модуль распознавания объектов. Выяснилось, что полноценная PLATO корректно демонстрирует «удивление» гораздо чаще, чем упрощенная модель. Также исследователи использовали датасет из статьи их коллег из 2019 года и показали, что PLATO способна адаптироваться под измененные данные.
Машинное обучение используют не только для понимания базовых физических процессов. В 2018 году мы рассказывали о том, как нейросеть научили степени свободы статической системы, которые определяют ее свойства.
Григорий Копиев
Она умеет разговаривать, видеть, и имитирует эмоции
Компания OpenAI представила мультимодальную генеративную модель GPT-4o, которая может работать с текстом, аудио и изображениями, включая видео. Модель может общаться с пользователем голосом и поддерживает 50 языков. Она может имитировать различные интонации, шепот, пение, смех. При этом модель работает гораздо быстрее предшествующей версии — время задержки ответа в голосовом режиме составляет в среднем около 0,3 секунды, что сравнимо с временем реакции человека. Также модель может видеть, получая и интерпретируя изображение с камеры в реальном времени. Трансляция презентации велась на YouTube.