Нейросеть научили придумывать качественные фотографии несуществующих людей

Tero Karras FI / YouTube

Специалисты из компании NVIDIA разработали нейросетевой алгоритм для генерации реалистичных изображений. В частности, программа на основе генеративно-состязательной нейросети создает портреты. Одна из основных особенностей алгоритма заключается в том, что обе нейросети наращивали количество слоев и разрешение изображения постепенно, что позволило достичь высокого качества деталей на конечных изображениях. Разработка будет представлена на конференции ICLR 2018, а посвященная ей статья опубликована на сайте NVIDIA.

Нередко в нейросетевых проектах, создающих или обрабатывающих изображения, используют генеративно-состязательные нейросети. Они состоят из двух нейросетей: одна из них занимается непосредственно созданием или изменением изображения, а вторая оценивает получившийся результат, сравнивая его с эталонами. За счет такой «гонки качества» сети постоянно улучшают создание и оценку изображений, в результате чего качество конечных изображений растет.

Ранее такой тип нейросетей использовали и для манипуляций с фотографиями лиц, к примеру, для создания портретов из набросков лиц, или превращения женских лиц в мужские и наоборот, но качество таких изображений было невысоким. Специалисты из исследовательского подразделения NVIDIA научились создавать таким методом качественные изображения с большим количеством деталей и разрешением, изменив подход к обучению такого типа нейросетей. Они решили постепенно наращивать разрешение изображений, создаваемых нейросетью. Использованная ими схема подразумевает, что разрешение изображения одновременно увеличивается у генератора и дискриминатора (часть, отвечающая за оценку изображения генератора), и таким образом они зеркальны другу.

Схема работы нейросети и наращивания разрешения

Tero Karras et al. / ICLR 2018

В качестве тренировочных данных исследователи взяли несколько больших открытых наборов размеченных данных: датасет CELEBA, содержащий множество фотографий знаменитостей, набор данных LSUN с фотографиями комнат, и CIFAR10, содержащий разные типы изображений. Исследователи смогли с помощью большого объема данных и постепенного роста изображения получить нейросеть, которая умеет создавать изображения людей с большим количеством деталей и разрешением 1024 на 1024 пикселя.

Также исследователи опубликовали часовое видео, иллюстрирующее работу алгоритма:

Ранее генеративно-состязательные нейросети научили и другим интересным манипуляциям с изображения, к примеру, создавать из одной фотографии в короткое видео, показывающее как будут развиваться события в ближайшие мгновения, или превращать картины известных художников в фотографии и наоборот.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

20:0023.08.23 3.4 IT Биология

Нейроинтерфейсы научились переводить сигналы мозга в текст в четыре раза быстрее

Одна парализованная пациентка смогла «произносить» 62 слова в минуту, а другая — 78

Катерина Петрова

Две команды ученых из США научили декодеры превращать сигналы мозга парализованных пациентов в текст в три-четыре раза быстрее, чем удавалось прежде. Статьи об этом [1, 2] опубликованы в Nature. Одни исследователи создали декодер, который переводил в текст беззвучную речь пациентки в текст со скоростью 62 слова в минуту, а вторая группа разработала немного другой интерфейс и перевела сигналы мозга не только в текст, но и в устную речь цифрового аватара и в его мимику. Их декодер генерировал текст со скоростью 78 слов в минуту. Предыдущий рекорд для подобных интерфейсов — 18 слов в минуту.