Нейросеть научили генерировать мемы

Елизавета Ивтушок

Ученые из Стэнфордского университета разработали нейросеть, которая придумывает текстовую часть мемов. Система основана на работе нейросети с долгой краткосрочной памятью и умеет генерировать субъективно (по мнению пятерых добровольцев) смешные картинки. Препринт опубликован на arXiv.org.

Для создания мемов с подписями (кэпшенами) используются специальные сайты (например, популярный Meme Generator), которые позволяют использовать картинку-шаблон и окошки для ввода текста. Для искусственного интеллекта создание подобного мема с помощью шаблона кажется задачей достаточно простой: придумывать и вводить членораздельный кэпшн самостоятельно компьютеры давно умеют. Задача, однако, осложняется тем, что зачастую картинка-шаблон подразумевает и использование подписи определенного типа. Знаменитый мем с Боромиром должен начинаться с фразы «Нельзя так просто взять и...» ("One does not simply..."), а мем с Брайаном-неудачником (Bad Luck Brian) — описывать ситуацию, которая начинается позитивно, а развязка неожиданным образом становится негативной.

Научить компьютер придумывать такие мемы самостоятельно (и так, чтобы они выглядели достоверно) можно с помощью алгоритмов глубокого обучения. Этим занялись Абель Пирсон Пятый (Abel L. Peirson V) и Мелтэм Толунэй (E. Meltem Tolunay) из Стэнфордского университета. Они разработали нейросеть, которую обучили на 400 тысячах изображений с сайта Meme Generator: из них извлекли 2600 уникальных шаблонов-картинок, каждому из которых соответствовало краткое описание (название мема, например, «злой школьник») и примеры кэпшенов.

Для создания мема система использует рекуррентную нейросеть с двумя моделями, основанными на долгой краткосрочной памяти. Система также во многом основана на алгоритме для создания подписей к изображениям Show and Tell, который в 2015 году представили разработчики Google. Нейросеть обучили создавать мемы не только получая на вход картинку-шаблон, но и шаблон вместе с соответствующим ему названием.

Оценить получившиеся мемы исследователи попросили пять добровольцев, каждому из которых показывали искусственные мемы и мемы из обучающей выборки, сделанные людьми. Картинки реальных людей получили 7 баллов по шкале забавности (от 1 до 10), в то время как созданные нейросетью мемы — от 6 до 6,8 в зависимости от алгоритма. Добровольцы также отличали настоящие мемы от искусственных в 63-70 процентах случаев. Для автоматической оценки получившихся кэпшенов разработчики использовали параметр «растерянности» (perplexity), который подсчитывает обратную вероятность появления каждого последующего слова в сгенерированном тексте на основе распределения вероятностей обучающей выборки и выражается в двойке в положительной степени (чем ближе этот показатель к двум, тем точнее работает модель). Величина этого параметра для созданных мемов равнялась 2,02 и 2,68 для разных моделей.

Исходный код алгоритма (включая парсер для сбора датасета), а также примеры получившихся мемов ученые выложили в свой репозиторий на github.

Сегодня мемы используются не только для развлечений, но и для рекламы, а также — для политической и идеологической пропаганды. Отчасти поэтому они часто становятся объектом различных исследований. К примеру, совсем недавно американские разработчики провели векторный анализ популярных мемов и выяснили, что самым частым их героем выступает Дональд Трамп, а самыми популярными оказались мемы с лягушонком Пепе.

Елизавета Ивтушок