Разработчики из компании Microsoft создали новую порождающую состязательную нейросеть, которая умеет рисовать изображения на основе их краткого текстового описания. Система работает благодаря алгоритму, который учитывает важные детали описания, и подробно описана в препринте на arXiv.
Очень часто в основе создающих изображения алгоритмов лежат порождающие состязательные нейросети (также их называют генеративно-состязательными, GAN — generative adversarial networks) — разновидность искусственных нейронных сетей, состоящих из генератора и дискриминатора. Задача первого — создавать новые объекты, похожие на объекты из обучающей выборки, доступа к которой у него нет, а задача второго — решить, принадлежит ли сгенерированный объект к классу объектов из доступной ему обучающей выборки, и дать соответствующий сигнал генератору. На основе такого алгоритма создаются программы, которые умеют рисовать оригинальные произведения искусства, создавать трехмерные модели местности и даже превращать наброски в фотореалистичные портреты.
Разработчики из исследовательского отделения Microsoft под руководством Сяодуна Хэ (Xiaodong He) для создания изображений из текстового описания разработали новую разновидность GAN-нейросети: внимательную GAN (attentional GAN, AttGAN). В отличие от уже существующих алгоритмов, которые генерируют изображения из целого описания, превращая его в один вектор-предложение, новый алгоритм обращает внимание на детали: то есть оценивает каждое слово в описании и рисует изображение на их основе.
В результате нейросеть учится создавать достаточно реалистичные изображения на основе описаний. При обучении на базе данных COCO, содержащей текст и описание, работа новой нейросети превосходит уже существующие алгоритмы в точности на 170,25 процента, а при использовании базы данных CUB (она содержит изображения птиц) — на 14,14 процента.
Разработчикам, таким образом, удалось показать эффективность нового алгоритма создания изображений на основе описания и отдельно — эффективность добавления в нейросеть «внимательной» составляющей.
Недавно исследователи из Сеульского университета представили другую нейросеть, которая из текстового описания действия генерирует трехмерную модель его выполнения. Полученную модель затем можно использовать для того, чтобы заставить двигаться робота.
Елизавета Ивтушок
Как сейчас выглядит нейрогенеративное искусство и что с ним будет дальше
Когда работаешь с новостями науки, иллюстрации — это сложно. Ладно еще, когда речь о каком-то наглядном поведенческом эксперименте. Но когда у тебя доказательство математической теоремы или демонстрация тонкого эффекта из области квантовой химии, где в качестве иллюстративного материала в лучшем случае графики — приходится думать. Думать долго и отчаянно. Так что когда разработчики нейросетей начали сначала делиться успехами своих детищ в живописи, а после запустили сервисы нейрогенерации изображений мы, конечно, очень обрадовались. Но простая генерация картинок в ответ на набор слов — это еще не очень интересно. Поэтому мы пошли к Илье Яцкевичу и Алексею Устьянцеву, которые занимаются нейрогенеративным искусством, чтобы они попробовали себя в роли иллюстраторов научных новостей — а потом поговорили с ними о том, как меняют их работу рисующие машины.