Китайские исследователи разработали алгоритм на базе сверточных нейросетей, способный создавать качественную пиксельную графику из обычных нарисованных изображений, а также восстанавливать сглаженное изображение из пиксельной графики. Разработчики применили метод обучения без учителя, благодаря чему им не пришлось вручную создавать для обучения пары обычных и пиксельных изображений. Посвященная алгоритму статья будет представлена на конференции SIGGRAPH Asia 2018.
Пиксельная графика, также известная как пиксель-арт, зародилась в 1970-х годах как способ воспроизвести реальные или вымышленные объекты на мониторах с низким разрешением. Несмотря на то, что на сегодняшний день разрешение распространенных мониторов составляет миллионы пикселей, и они способны отображать крайне реалистичную 3D-графику, пиксельная графика осталась достаточно популярной и используется, к примеру, во многих современных видеоиграх.
Обычно такую графику приходится создавать вручную на уровне отдельных пикселей. Если рисунок основан на реальном изображении, художнику необходимо не просто уменьшить его разрешение, а переработать, оставив глобальную структуру объекта и лишь важные детали. Из-за этого создание пиксельной графики требует много времени и усилий, и некоторые исследователи занимаются созданием алгоритмов, способных автоматизировать этот процесс.
Исследователи под руководством Тянь-Цзинь Вона (Tien-Tsin Wong) из Китайского университета Гонконга создали алгоритм, способный создавать качественную пиксельную графику, напоминающую работу настоящих художников. Алгоритм состоит из трех сверточных нейросетей и работает в двух направлениях. На входе он получает исходное изображение в высоком разрешении, обладающее большим количеством деталей. Это изображение подается на нейросеть GridNet, которая создает на его основе предварительный набор из трех изображений с несколькими уровнями пикселизации. Результат работы этой сети передается на сеть PixelNet, которая превращает этот набор изображений в три изображения, выполненных в стиле пиксельной графики. В конце работы алгоритма пиксельные изображения передаются на сеть DepixelNet, которая идентична PixelNet по строению, но выполняет обратную функцию — создает сглаженное изображение, напоминающее оригинал.
Разработчики создали несколько функций потерь, связывающих разные подсети и позволяющих минимизировать различие структуры и цветов на изображениях, полученных на разных этапах работы алгоритма.
Одна из главных проблем при обучении алгоритма заключалась в сложности создания набора обучающих пар, состоящих из обычного и пиксельного изображений, поскольку рисование пиксельной графики требует много времени и усилий. Вместо этого исследователи создали два датасета, состоящие из 900 обычных нарисованных изображений и других 900 изображений в стиле пиксель-арт. Во время обучения алгоритм обучался в обоих направлениях — созданию пиксельной графики из обычных изображений и наоборот. В результате разработчикам удалось обучить алгоритм создавать из произвольного нарисованного изображения качественную пиксельную графику, которая по уровню прорисовки превосходит результаты работ других алгоритмов.
Помимо рисования пиксельной графики нейросети преуспели и в создании реалистичных картин, выполненных в классических стилях. К примеру, они умеют превращать примитивные изображения в картины, напоминающие стиль известных художников и даже совмещать в одной сгенерированной картине сразу несколько стилей. Кроме того, некоторые из них после обучения на множестве реальных картин способны не просто превращать фотографии в картины, но и создавать оригинальные произведения искусства.
Григорий Копиев
Одна парализованная пациентка смогла «произносить» 62 слова в минуту, а другая — 78
Две команды ученых из США научили декодеры превращать сигналы мозга парализованных пациентов в текст в три-четыре раза быстрее, чем удавалось прежде. Статьи об этом [1, 2] опубликованы в Nature. Одни исследователи создали декодер, который переводил в текст беззвучную речь пациентки в текст со скоростью 62 слова в минуту, а вторая группа разработала немного другой интерфейс и перевела сигналы мозга не только в текст, но и в устную речь цифрового аватара и в его мимику. Их декодер генерировал текст со скоростью 78 слов в минуту. Предыдущий рекорд для подобных интерфейсов — 18 слов в минуту.