Разработчики SaaS-сервиса Icons8 представили Generated Photos — открытый датасет из 100 тысяч изображений лиц несуществующих людей, сгенерированных нейросетью. Для обучения алгоритма они использовали 29 тысяч снимков специально нанятых моделей. Предполагается, что фотографии будут использоваться для рекламных кампаний и презентаций, сообщается в блоге компании.
Первый успешный прототип системы, которая генерирует реалистичные изображения лиц несуществующих людей представила компания NVIDIA осенью 2017 года. В основе такой системы лежат генеративно-состязательные нейросети, а особенность его заключалась в постепенном наращивании качества изображений, что в итоге приводило к высокой детализации и натуральности полученных на изображениях лиц.
С тех пор технологии создания лиц несуществующих людей улучшались и стали массово использоваться разработчиками: Филипп Ванг из компании Uber, к примеру, этой зимой запустил довольно известный сайт thispersondoesnotexist, который при обновлении генерирует новое изображение.
Качественная работа таких алгоритмов обеспечивается огромным массивом данных в обучающей выборке, для чего автоматически собираются изображения лиц людей. Проблема такого метода заключается в том, что фотографии могут быть защищены авторскими правами или просто нежеланием людей участвовать в обучении алгоритма. Кроме того, фотографии, на который алгоритмы обучаются, чаще всего сделаны с разных ракурсов и с разным уровнем освещения, что может снизить качество готового снимка.
Эти проблемы разработчики из Icons8 решили, наняв 69 моделей: алгоритм (компания не сообщает, какую нейросетевую модель они выбрали для обучения) обучен на 29 тысячах их фотографий. В итоге разработчикам удалось собрать датасет из 100 тысяч качественных изображений лиц несуществующих людей.
Generated Photos находится в открытом доступе: авторы проекта предполагают, что его будут применять в рекламе, копирайтинге и прочих сферах, где необходима визуальная информация. Не исключено, что сторонним разработчикам он поможет в обучении алгоритмов, для которых необходимы масштабные датасеты с человеческими лицами. Скачать датасет можно на официальном сайте проекта.
Нанимать моделей для создания датасетов — практика не такая распространенная, но довольно эффективная: разработчики могут получить «чистые» данные с нужно расставленным светом и ракурсом и необходимой детализацией. Этим недавно воспользовалась компания Facebook: они создали датасет из видео с наложенными на актеров лицами моделей, который будет использоваться для разработки методов борьбы с дипфейками.
Елизавета Ивтушок