11:41 01.12.18 3.7 IT

Нейросеть научили создавать пиксельную графику

Григорий Копиев

Китайские исследователи разработали алгоритм на базе сверточных нейросетей, способный создавать качественную пиксельную графику из обычных нарисованных изображений, а также восстанавливать сглаженное изображение из пиксельной графики. Разработчики применили метод обучения без учителя, благодаря чему им не пришлось вручную создавать для обучения пары обычных и пиксельных изображений. Посвященная алгоритму статья будет представлена на конференции SIGGRAPH Asia 2018.

Пиксельная графика, также известная как пиксель-арт, зародилась в 1970-х годах как способ воспроизвести реальные или вымышленные объекты на мониторах с низким разрешением. Несмотря на то, что на сегодняшний день разрешение распространенных мониторов составляет миллионы пикселей, и они способны отображать крайне реалистичную 3D-графику, пиксельная графика осталась достаточно популярной и используется, к примеру, во многих современных видеоиграх.

Обычно такую графику приходится создавать вручную на уровне отдельных пикселей. Если рисунок основан на реальном изображении, художнику необходимо не просто уменьшить его разрешение, а переработать, оставив глобальную структуру объекта и лишь важные детали. Из-за этого создание пиксельной графики требует много времени и усилий, и некоторые исследователи занимаются созданием алгоритмов, способных автоматизировать этот процесс.

Исследователи под руководством Тянь-Цзинь Вона (Tien-Tsin Wong) из Китайского университета Гонконга создали алгоритм, способный создавать качественную пиксельную графику, напоминающую работу настоящих художников. Алгоритм состоит из трех сверточных нейросетей и работает в двух направлениях. На входе он получает исходное изображение в высоком разрешении, обладающее большим количеством деталей. Это изображение подается на нейросеть GridNet, которая создает на его основе предварительный набор из трех изображений с несколькими уровнями пикселизации. Результат работы этой сети передается на сеть PixelNet, которая превращает этот набор изображений в три изображения, выполненных в стиле пиксельной графики. В конце работы алгоритма пиксельные изображения передаются на сеть DepixelNet, которая идентична PixelNet по строению, но выполняет обратную функцию — создает сглаженное изображение, напоминающее оригинал.

Разработчики создали несколько функций потерь, связывающих разные подсети и позволяющих минимизировать различие структуры и цветов на изображениях, полученных на разных этапах работы алгоритма.

Одна из главных проблем при обучении алгоритма заключалась в сложности создания набора обучающих пар, состоящих из обычного и пиксельного изображений, поскольку рисование пиксельной графики требует много времени и усилий. Вместо этого исследователи создали два датасета, состоящие из 900 обычных нарисованных изображений и других 900 изображений в стиле пиксель-арт. Во время обучения алгоритм обучался в обоих направлениях — созданию пиксельной графики из обычных изображений и наоборот. В результате разработчикам удалось обучить алгоритм создавать из произвольного нарисованного изображения качественную пиксельную графику, которая по уровню прорисовки превосходит результаты работ других алгоритмов.

Помимо рисования пиксельной графики нейросети преуспели и в создании реалистичных картин, выполненных в классических стилях. К примеру, они умеют превращать примитивные изображения в картины, напоминающие стиль известных художников и даже совмещать в одной сгенерированной картине сразу несколько стилей. Кроме того, некоторые из них после обучения на множестве реальных картин способны не просто превращать фотографии в картины, но и создавать оригинальные произведения искусства.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

00:51 08.08.25 1.7 IT

OpenAI выпустила GPT-5

Она хороша в программировании и меньше галлюцинирует

Андрей Фокин

Компания OpenAI представила новую флагманскую систему алгоритмов GPT-5, которая в ближайшее время заменит модели предыдущего поколения в ChatGPT. Пятое поколение GPT представляет собой единую систему, которая в зависимости от сложности запроса в реальном времени решает: быстро дать ответ, либо задействовать более глубокие рассуждения. GPT-5 демонстрирует повышенную производительность в программировании, написании текстов и ответах на вопросы, связанные со здоровьем, а также значительно реже галлюцинирует по сравнению с предыдущим поколением моделей OpenAI. GPT-5 будет доступна для всех пользователей ChatGPT, включая бесплатных, с ограничениями на количество запросов в зависимости от уровня подписки. Подробности опубликованы в блоге компании и системной карточке модели.