Нейросеть научили рисовать сложные сцены по текстовому описанию

Елизавета Ивтушок

Разработчики из Microsoft представили новую архитектуру генеративно-состязательной нейросети, которая умеет рисовать изображения на основе текстового описания качественнее алгоритмов, представленных ранее. Препринт статьи с описанием работы алгоритма опубликован на сайте компании, а также разработчики представят доклад на конференции CVPR 2019, которая сейчас проходит в Калифорнии.

Сама по себе задача создания изображений на основе текстового описания (text-to-image) уже не новая: сейчас для этого успешно используются генеративно-состязательные нейросети. Например, в начале прошлого года алгоритм, основанный на работе внимательной генеративно-состязательной сети (attentional GAN, или AttGAN), представила команда разработчиков из Microsoft. Несмотря на свою эффективность, такие алгоритмы умеют воссоздавать только базовые примеры (другой пример — алгоритм, который умеет по описанию рисовать портреты), а вот со сложными сценами с множеством разных объектов справляются пока что плохо.

Исправить этот недостаток решила другая группа разработчиков из Microsoft под руководством Вэньбо Ли (Wenbo Li). Для этого они разработали и обучили новый алгоритм, основанную на работе генеративно-состязательной нейросети. Работа объектно-ориентированной генеративно-состязательной нейросети (сокращенно ObjGAN) очень похожа на ранее представленную AttGAN, основное преимущество которой состоит в том, что при создании изображений на основе текста она ориентируется на объекты. Но в ObjGAN части, которая генерирует изображения, предшествует система на основе нейросети с долгой краткосрочной памятью. Слои в ней анализируют нужный текст и выделяют из него объекты, которые необходимо расположить на итоговом изображении, после чего генерируется форма итогового изображения. В итоге та часть алгоритма, которая основана на генеративно-состязательной нейросети, дорисовывает изображение на основе этой формы.

Для обучения алгоритма разработчики использовали классический датасет COCO, состоящий из 328 тысяч изображений с текстовыми описаниями. В итоге, судя по примерам, работа ObjGAN в решении задачи генерации изображений на основе текста во многом превосходит ранее представленные алгоритмы и качественно справляется с предложениями с большим количеством описываемых объектов и деталей.

С помощью другой архитектуры генеративно-состязательной сети (так называемой «круговой») недавно также удалось научиться достоверно переносить информацию между видео. Прочитать о ее работе вы можете здесь.

Елизавета Ивтушок