Исследователи из Google разработали генеративную нейросеть Imagen, создающую реалистичное изображение по текстовому запросу подобно DALL-E 2 от OpenAI. Исследование результатов на добровольцах показало, что люди считают сгенерированные ей изображения более качественными, чем изображения из других нейросетей, в том числе и DALL-E 2. Статья об алгоритме опубликована на arXiv.org, также авторы запустили сайт с примерами работы нейросети и кратким описанием.
В 2021 году OpenAI представила нейросеть DALL-E, которая генерирует изображения по текстовому описанию, сформулированному простым языком. Эта модель показала большой прирост в качестве генерации изображений (text2image), но в основном ей удавались иллюстрации. В DALL-E 2, представленной в начале апреля, исследователи модифицировали архитектуру модели и добились уже довольно качественной генерации в том числе и фотореалистичных изображений. Максимально кратко работу модели можно описать так: получив текстовое описание, она, используя текстовый кодировщик от CLIP (модель от OpenAI, генерирующая описания изображений), получает текстовый эмбеддинг (сжатое векторное представления данных), затем с помощью диффузионной модели «конвертирует» его в визуальный эмбеддинг, потом с помощью другой диффузионной модели создает изображение размера 64 на 64 пикселя, а в конце еще двумя диффузионными моделями повышает разрешение до 1024 на 1024.
От редактора
Диффузионные модели работают следующим образом. Сначала берется качественное изображение (например, фотография), на которое поэтапно добавляется все больше шума до стадии, когда на нем будет уже только случайный шум. Затем из таких наборов исходных и «испорченных» изображений создается датасет, на котором нейросеть учится выполнять обратную операцию: генерировать из шума качественное изображение. В 2021 году исследователи из OpenAI показали, что такой метод генерации работает лучше и эффективнее традиционных генеративно-состязательных нейросетей.
Спустя полтора месяца исследователи из Google представили свою генеративную нейросетевую модель Imagen, которая архитектурно похожа на DALL-E 2, но все же имеет некоторые отличия и добивается лучших результатов. В качестве кодировщика исходного текста используется кодировщик T5-XXL. В этом заключается одно из отличий от DALL-E 2: если в ней используется кодировщик от модели CLIP, которую обучали на тексте и изображениях, то T5 обучался только на тексте. Получаемый текстовый эмбеддинг подается сразу в диффузионную модель, создающую изображение в разрешении 64 на 64 пикселя (в DALL-E 2 перед этим этапом используется «конвертер»), а оно в свою очередь два раза увеличивается диффузионными моделями до разрешения 1024 на 1024. В Imagen каждая дифузионная модель работает с учетом текстового эмбеддинга. Авторы DALL-E 2 писали в своей статье, что они пробовали такую же схему, но не обнаружили, что она повышает качество генерации, поэтому текстовый эмбеддинг не учитывался при повышениях разрешения.
Imagen обучалась на собственных датасетах Google, в которых было суммарно 460 миллионов пар «изображение-описание», а также на публично доступном датасете Laion с 400 миллионами пар. В результате разработчикам удалось создать модель с высоким качеством генерации изображений разных типов. Исследователи оценили работу модели тремя способами. Они сравнили результаты генерации с фотографиями из популярного датасета COCO и выяснили, что Imagen создает рекордно похожие изображение (FID = 7,27). Оценка добровольцами показала, что люди считают сгенерированные новой моделью изображения реалистичнее фотографий из COCO в 39,5 ± 0,75 процента случаев. Когда из сравнения убирали все фотографии с людьми, эта величина возрастала до 43,9 ± 1,01 процента.
Наконец, исследователи напрямую сравнили работу Imagen с четырьмя другими моделями для генерации изображений по текстовому описанию. Они генерировали изображения, используя одинаковые описания, показывали пары таких изображений добровольцам и просили их выбрать один пример из пары, оценивая качество и соответствие изображения описанию. Оказалось, что люди предпочитают Imagen другим моделям по обоим параметрам.
Судя по показанным Google примерам, Imagen, в отличие от DALL-E 2, умеет генерировать реалистичные надписи, а также реже путает цвета, если они есть в текстовом запросе. В то же время стоит понимать, что, в отличие от OpenAI, которая хотя бы предоставила некоторым исследователям и журналистам доступ к демо-версии генератора, Google не выложила в открытый доступ ни демо, ни код, поэтому оценить ее работу довольно сложно. Некоторые исследователи, имеющие доступ к демо-версии DALL-E 2, выложили в твиттер сравнение предоставленных Google примеров с результатами генерации DALL-E 2 по тем же запросам.
Авторы объясняют закрытость проекта тем, что в датасетах для обучения встречаются неприемлемые примеры, в том числе «порнографические изображения, расистские оскорбления и вредные социальные стереотипы». Также они отмечают, что генеративные модели могут использоваться в злонамеренных целях, в том числе для распространения дезинформации. Кроме того, что исследователи не выложили модель в открытый доступ, можно увидеть, что во всех примерах генерации есть надпись Imagen в нижнем правом углу. Таким же образом помечает все сгенерированные картинки OpenAI, правда, использует для этого цветные квадраты вместо надписи с названием модели.
Как правило, вскоре после выхода подобных статей появляются открытые реализации описанных в них алгоритмов. В частности одним из первых это делает разработчик Фил Ван (Phil Wang), известный на GitHub под ником licudrains. Он уже выложил свою реализацию DALL-E 2 и завел репозитарий, в который в ближайшем будущем планирует выложить свободную версию Imagen.
Григорий Копиев
Пять правил успешной IТ-стажировки
Как попасть на работу в сфере IT без опыта работы? Хороший способ попробовать свои силы, познакомиться с работодателем и зарекомендовать себя — пойти на стажировку. Редакция N + 1 на примере программы Росатома подготовила пять универсальных правил, которые помогут попасть на желаемую IT-стажировку и остаться работать в компании. Правило 1. Выбирайте не только профессию, но и компанию Важно не только выбрать дело по душе, но и подобрать себе подходящее место работы — в наши дни это чуть ли не важнее, чем сама профессия. Хотели бы вы строить карьеру именно с этим работодателем? Если после стажировки вы надеетесь получить трудоустройство, внимательно изучите, чем компания занимается и насколько это близко вам лично. Может прозвучать неожиданно, но в Росатоме — госкорпорации, занимающейся атомной промышленностью, — есть IT-направление. Сотрудники разрабатывают цифровые продукты разного масштаба: от создания программных роботов и цифровизации Северного морского пути до строительства новых электростанций. Попасть на работу в госкорпорацию легче, чем кажется! Особенно если вы студент или выпускник старших курсов технических или IT-специальностей. Поддержка. Формат программы уникален, участие бесплатное и дистанционное. Команде участников предстоит решить реальный кейс при постоянной поддержке куратора и наставничестве эксперта. Кстати, участие в Case Lab можно засчитать как производственную практику в университете. А лучшие студенты получат приглашение на оплачиваемую стажировку в штат Гринатома и другие проекты Росатома. Правило 2. Определитесь, какое направление для вас Ок, с компанией определились. Что дальше? Нужно выбрать направление. Чем четче вы сформулируете свои предпочтения в работе, тем проще будет найти подходящую стажировку. А кандидат с четкой расстановкой приоритетов, безусловно, лучше выглядит в глазах работодателя. В Росатоме открывается много проектов, поэтому список программ Case Lab постоянно обновляется. Вот самые популярные направления: Аналитика и системный подход В условиях импортозамещения самые популярные системы учета в России и СНГ — это продукты 1С, которые используют 1,5 миллиона компаний. С их помощью можно считать зарплату сотрудников, контролировать расчеты с подрядчиками и клиентами, вести документооборот, сводить бухгалтерский баланс, формировать отчеты и делать многое другое. На Case Lab от Гринатома команды участников на реальных примерах изучают, как устроены автоматизация деятельности предприятия, подсчет зарплат, контроль расчетов с подрядчиками и клиентами через систему 1C, и с нуля обучаются новой профессии: 1С-аналитик или 1С-разработчик. Похожий трек есть и по направлению SAP. Там участники работают с SAP BI — системой обработки информации для бизнес-анализа, с помощью которой проводят стратегический анализ данных и принимают стратегические решения в компании. Поддержка В любой технологической компании есть несколько линий поддержки. Чем они отличаются друг от друга? Близостью к пользователю или системе: от непосредственной работы с пользователем до технических вопросов эксплуатации и низкоуровневого взаимодействия с кодом системы. Участники программы Support изучают построение IТ-инфраструктуры и знакомятся со спецификой работы в сфере IT. По итогам марафона Росатом открывает набор на стажировки по разным направлениям: первая линия поддержки пользователей, поддержка видео-конференц-связи или корпоративной системы передачи данных, администрирование систем коммуникаций Microsoft, работа с серверным оборудованием или автоматизация IТ-инфраструктуры. Веб-разработка Если хочешь быть востребованным специалистом, лучше всего изучать JavaScript или Java. Программа подходит для всех, кто начинает делать первые шаги к карьере в IТ. Подготовка идет по двум направлениям: разработка и системная аналитика. Участники учатся создавать, настраивать и кастомизировать несложные сайты, а также пробуют на практике работу в Scrum-команде. Кстати, в Case Lab ребята пишут на JavaScript. Правило 3. Не пренебрегайте конкурсами, хакатонами и другими программами поддержки молодых специалистов Крупные IT-компании давно следуют принципу, что лучше обучить новичков под свой проект с нуля, чем заниматься «перепрошивкой» готового специалиста. Проявите себя — так больше шансов, что вас заметят. Так, для желающих попасть на оплачиваемую стажировку в Росатом после Case Lab учитываются баллы рейтинга, мотивация и умение работать в команде. Программа подготовки к IT-стажировкам по всем направлениям бесплатная и проходит в дистанционном формате. Участникам предлагают совместно решить кейс на основе реальной ситуации. В процессе обучения команду сопровождает куратор, который еженедельно дает обратную связь, а также эксперт, проверяющий выполненное задание. На еженедельных встречах с экспертом участники могут задать вопросы и обменяться опытом. Правило 4. Интегрируйтесь в компанию по максимуму Не забывайте напоминать о себе. Принимайте приглашения на все встречи и совместные мероприятия, не стесняйтесь общаться. В вас должны видеть не только профессионала, но и приятного человека, с которым хочется иметь дело. Стажировка Гринатома может быть рассчитана как на полную, так и на частичную занятость. Руководители помогают стажерам адаптироваться в атомной отрасли и постепенно ставят перед ними практические задачи. Все стажеры официально трудоустроены, а их работа оплачивается исходя из фактической занятости. Росатом заинтересован в том, чтобы после стажировки участники программы остались работать в IT-блоке разных предприятий атомной отрасли. Чтобы участники не чувствовали себя оторванными от коллег, каждую пятницу проводятся развлекательно-познавательные тренинги — онлайн-встречи, на которых сотрудники компании делятся опытом и советами, как успешно пройти стажировку или развить soft skills. Во время онлайн-митапов и квизов стажеры знакомятся между собой и погружаются в процессы компании. IT-вакансии для стажеров доступны как удаленно, так и в офисе в разных городах России. Большинство стажировок можно проходить удаленно, и в этом, на наш взгляд, огромный плюс. Также не забывайте принимать участие во всех активностях компании: в Гринатоме есть беговой клуб, сообщество волонтеров, языковые клубы и многое другое. Правило 5. Не забывайте, стажировка — это полноценная работа Если вы хотите остаться в компании, относитесь к стажировке так же, как к полноценной работе. У вас будет руководитель-наставник, но это уже не учеба. Чтобы стать постоянным сотрудником одной из компаний Росатома, нужно пройти программу стажировки и получить положительную обратную связь от руководителя и наставника. Если все требования будут учтены, вас переведут на позицию джуниора. 80% стажеров Росатома заключают постоянный контракт. Если вам интересна работа в IT-блоке атомной отрасли — подавайте заявку, набор на стажировки открыт круглый год. За подробностями следите в группе «IT-стажировки Росатома» во «ВКонтакте» и на сайте.