Американские разработчики научили нейросети по текстовому описанию создавать короткие анимированные ролики с персонажами мультсериала «Флинтстоуны». Для обучения модели CRAFT использовался массив из более чем 25 тысяч вручную размеченных роликов, говорится в статье, доступной на arXiv.org.
В последнее время разработчики все чаще экспериментируют с нейросетями, генерирующими контент на основе текстового описания. Например, недавно Microsoft представила программу, которая может создавать картинку на основе текста. Однако со статичной картинкой работать значительно легче, чем с движущимися объектами, поэтому в области генерации анимированных изображений по текстовому описанию пока что не было заметного прогресса.
Специалисты из Института искусственного интеллекта Аллена и Иллинойсского университета в Урбане-Шампейне представили модель CRAFT (Composition, Retrieval and Fusion Network, «составляющая, добывающая и спаивающая нейросеть»), которая способна генерировать анимированные сцены на основе текстового описания сцены и действий персонажей. CRAFT состоит из трех разных нейросетей, которые позволяют выделять в текстовом описании подходящую композицию сцены, сущности (сюда входят как одушевленные, так и неодушевленные объекты) и фон.
Для обучения разработчики использовали 25184 вручную размеченных трехсекундных (75 кадров) роликов со сценами из мультсериала «Флинтстоуны», при разметке которых авторы указывали кто присутствует на экране и что он делает. CRAFT на обучающей выборке "понимает" кто и что делает, и затем использует подходящие части роликов при генерации новых сцен, а не рисует картинку с нуля. Результаты работы программы после обучения можно оценить на демонстрационного видео, опубликованного разработчиками:
Из ролика видно, что программа иногда выдает ошибки на разных уровнях исполнения: например, Вильма разговаривает по телефону, повернувшись лицом в другую сторону, а Фред в одном из роликов бежит на месте. Тем не менее, CRAFT демонстрирует заметный прогресс в области генерации видеоконтента из текстового описания - многие сцены выглядит именно так, как себе их мог бы представить человек, прочитавший текст. Стоит отметить, что пока что возможное применение представленного метода сильно ограничивает необходимость в ручной разметке большого объема данных.
Существуют и другие нейросети помогающие обрабатывать и генерировать видео. Например, в Индийском технологическом институте недавно разработали алгоритм, который может воссоздать движение на видео из размытого кадра.
Николай Воронцов