Исследователи заподозрили существование собственного словаря у нейросети DALL-E 2

Американские исследователи обнаружили у генеративной нейросети DALL-E 2, создающей изображения по текстовому описанию, необычные особенности. Текст на ее изображениях, который кажется случайным набором символов, вероятно, вовсе не является таковым и зачастую связан с конкретными объектами и понятиями. К примеру, по запросу «Apoploe vesrreaitais» модель обычно генерирует изображения с птицами. Исследователи предположили, что DALL-E 2 в процессе обучения формирует собственное подобие словаря. Статья, пока не прошедшая рецензирование, доступна на сайте авторов. Она вызвала активное обсуждение среди сообщества исследователей машинного обучения, которые опровергли некоторые тезисы авторов и подтвердили другие.

DALL-E 2 — это новая и улучшенная версия генеративной нейросети DALL-E, представленной OpenAI в начале 2021 года. Тогда исследователи рассказали одновременно о двух похожих моделях: DALL-E и CLIP. По сути они выполняют противоположные задачи: DALL-E генерирует реалистичное изображение по его текстовому описанию, данному человеком, а CLIP генерирует текстовое описание для данного ей изображения. В обоих случаях модели обучались на огромном объеме изображений и описаний и сумели выучить качественную связь между визуальным и текстовым представлением объектов и понятий. В представленной этой весной DALL-E 2 разработчики поменяли некоторые детали реализации и сумели повысить реалистичность генерируемых ей изображений. Тем не менее у нее все еще есть заметные проблемы, одна из которых — генерация надписей. Обычно модель генерирует либо набор латинских символов в неправильном порядке, либо использует несуществующие символы или узоры.

OpenAI традиционно не предоставляет код и полную версию своих моделей, и в этот раз запустила демо-версию с доступом по запросу, в которой исследователи могут проверить работу модели, дав ей текстовое описание и получив набор изображений. Яннис Дарас (Giannis Daras) и Александрос Димакис (Alexandros Dimakis) из Техасского университета в Остине, которые получили доступ к демо-версии, обнаружили, что случайный текст на изображениях, похоже, не такой уж и случайный.

Они загружали в модель описания тех или иных сцен с указанием, что ей нужно сгенерировать текст. Например, в ответ на предложение «Два кита, разговаривающих о еде, с субтитрами» (Two whales talking about food, with subtitles.) модель сгенерировала двух китов и неразборчивый набор символов, который латинскими символами лучше всего отражается фразой «Wa ch zod ahaakes rea». Авторы обнаружили, что если загрузить в модель эту, казалось бы, бессмысленную фразу, она сгенерирует изображения с разными морепродуктами.

Аналогичным образом они обнаружили некоторые другие фразы и слова, которые устойчиво связанны с конкретными понятиями, например, по запросу «Apoploe vesrreaitais» модель чаще всего генерирует птиц. При этом в данном случае они узнали об этой фразе, попросив сгенерировать двух фермеров, разговаривающих об овощах. Кроме того, они обнаружили, что иногда модель корректно генерирует и изображения с комбинацией этих фраз. Так, они сначала выяснили, что по запросу «Contarra ccetnxniams luryca tanniounons» DALL-E 2 часто генерирует жуков и прочих насекомых, а в ответ на фразу «Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons» она может сгенерировать изображения птиц, которые едят жуков.

Исследователи предположили, что обнаружили у DALL-E 2 «скрытый язык» и опубликовали статью. Она вызвала бурное обсуждение в сообществе разработчиков и исследователей. Бенджамин Хиттон показал, что часть примеров, приведенных авторами, зачастую не соответствует действительности, и по-видимому, была вызвана либо совпадением, либо выискиванием удачных вариантов генерации. Так, в ответ на фразу «Contarra ccetnxniams luryca tanniounons» он чаще всего получал разных животных, а не конкретно жуков (хотя они нередко были в результатах). Более того, если добавить к этой фразе указание стиля, предполагаемая связь между понятием «жуки» и этой фразой вовсе исчезает: если попросить модель сгенерировать «Contarra ccetnxniams luryca tanniounons» в стиле рисунка, она стабильно рисует пожилых женщин, а если попросить сделать 3D-рендер, получаются рендеры ракушек, динозавров и других объектов.

В то же время и он, и еще один исследователь, подтвердили, что по фразе «Apoploe vesrreaitais» DALL-E 2 действительно стабильно генерирует именно птиц. Вероятное объяснение этому нашел пользователь твиттера BarneyFlames. Он обнаружил, что токенизатор из модели CLIP, которая используется в DALL-E 2 для превращения текста в эмбеддинг, разбивает фразу «Apoploe vesrreaitais» на токены apo, plo, e, ,ve, sr, re, ait и ais. Первые два токена встречаются в начале названий семейств птиц Apodidae и Ploceidae. Он предположил, что модель могла получить большую часть информации о птицах из научных иллюстраций. Таким образом, при генерации изображений птиц DALL-E 2 может формировать текст из токенов, которые она чаще всего встречала в описаниях фотографий птиц при обучении.

После критики других исследователей авторы выложили скорректированную версию статьи, в которой помимо прочего использовали термин «скрытый словарь» вместо «скрытого языка».

В прошлом году разработчики из Сбера создали русскоязычную реализацию первой версии DALL-E. Поскольку при подготовке датасета они использовали в том числе переведенные описания изображений, в итоговой модели тоже встречаются неожиданные «баги» с изображениями птиц, подробнее о которых можно прочитать в нашем блоге «Лучше синица в руках: о трудностях перевода».

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Представлена модель для предсказания структуры белков AlphaFold 3

Она работает на сервере с квотой и не разрешает изучать потенциальные лекарства