OpenAI представила нейросеть для генерации видео по текстовому описанию

Она превосходит по качеству все предыдущие модели

Андрей Фокин

Компания OpenAI представила новую диффузионную генеративную модель машинного обучения под названием Sora, которая умеет создавать по текстовому описанию видео высокого качества с малым количеством артефактов, разрешением до 1920×1080 и продолжительностью до одной минуты. Помимо этого, Sora может дополнять новыми кадрами уже существующие видеофрагменты, а также создавать новые и анимировать уже существующие статичные изображения. Пост с кратким обзором возможностей модели, а также статья с некоторыми техническими подробностями опубликованы на сайте компании.

Генерация видеоконтента по текстовому описанию (text-to-video) — возникшее сравнительно недавно стремительно развивающееся направление машинного обучения, которое стало логическим продолжением исследований в области генерации изображений. Существенный прогресс в этом направлении начался в течение последних двух лет. К примеру, такие крупные компании как Meta* и Google почти одновременно представили в 2022 году сразу три алгоритма: Make-A-Video, Phenaki и Imagen Video — модели, которые могли по текстовому описанию генерировать короткие видео и «оживлять» статичные изображения. Менее месяца назад Google представила более продвинутую модель Lumiere, которая способна генерировать пятисекундные видеоролики. Тем не менее, несмотря на определенные успехи, качество генерации до последнего времени оставалось довольно низким.

15 февраля 2024 года компания OpenAI представила собственную text-to-video модель под названием Sora. Это диффузионная генеративная модель, которая создает видео по его текстовому описанию, начиная процесс со случайного шума и постепенно преобразуя его в изображение. Подобно другим GPT моделям Sora использует архитектуру трансформера. Только вместо токенов, базовых блоков текста, используемых в языковых моделях, визуальная информация в Sora разбивается на их аналоги — пространственно-временные патчи, или другими словами, на фрагменты, которые содержат в себе информацию о части кадра и о том, как эта часть изменяется со временем.

Модель получает на вход зашумленные патчи вместе с текстовыми описаниями визуального контента, после чего пытается предсказать выходные патчи, которые бы соответствовали описанию. Входные данные на первом шаге сжимаются — видеоизображение преобразуется в низкоразмерное латентное (скрытое) пространство. Затем из них извлекается последовательность пространственно-временных патчей. На выходе сгенерированные моделью данные преобразуется обратно в пространство пикселей с помощью декодера.

Такой подход позволяет проводить обучение модели на видео с переменным разрешением и продолжительностью, а также контролировать разрешение генерируемого видео на выходе. Его диапазон может варьировать от 1920×1080p до 1080×1920. Продолжительность генерируемых моделью видеороликов составляет 60 секунд. Помимо полностью нового контента, получаемого только по текстовым описаниям, Sora также может вносить изменения в уже существующие видеоролики, дополнять их новыми кадрами, менять направление воспроизведения и соединять между собой. Кроме этого, Sora может генерировать статичные изображения разрешением до 2048×2048 пикселей, или превращать уже готовые картинки в анимацию.

В техническом отчете OpenAI отмечает, что модель оказалась способна правильно визуализировать людей и объекты с учетом их физических характеристик. Кроме этого, сгенерированные видео демонстрируют 3D-консистентность — изображение в них сохраняет правильную перспективу, а объекты согласованно перемещаются в пространстве сцены относительно движущейся камеры, хотя модель этому никак явно не обучалась. Также в сгенерированном видео удается поддерживать временную согласованность — модель запоминает и сохраняет внешний вид персонажей и объектов, которые на время выпадают из поля зрения, а затем вновь появляются.

По мнению разработчиков, этот неожиданный результат стал возможен благодаря использованию большого количества данных при обучении, что подчеркивает важность масштаба обучающей выборки. Также это означает, что в будущем Sora может стать основой для моделей, которые способны «понимать» и моделировать реальный мир.

Несмотря на высокое качество генерации, Sora иногда все же допускает ошибки. У нее возникают сложности с точным воспроизведением физики в сложных сценах, например, с моделированием осколков бьющегося стекла. Также она не всегда «понимает» причинно-следственные связи. К примеру, в сцене, где человек откусывает печенье, модель может не отобразить след от укуса. В представленных в обзоре примерах также иногда заметны артефакты, например, при отрисовке движений ног людей и животных. Кроме того, модель может путать пространственные детали в текстовом описании, например, право и лево, и испытывать затруднения с точным описанием событий, происходящих в течение времени.

По словам OpenAI, в первую очередь модель будет доступна для команды экспертов для ее оценки на предмет потенциальных рисков и вреда. Кроме того, доступ получат ряд художников, дизайнеров и режиссеров для того, чтобы составить отзывы и помочь компании понять, как можно усовершенствовать модель, чтобы она была полезна для творческих профессионалов.

Самым известным и используемым продуктом компании OpenAI на сегодняшний день остается чат-бот на основе большой языковой модели ChatGPT. Сейчас для использования доступна его четвертая версия, релиз которой состоялся в марте 2023 года.

*Деятельность компании Meta запрещена в России