Сбер научил нейросеть генерировать эмодзи по текстовому описанию

Сбер научил нейросеть создавать новые эмодзи по текстовому описанию. Она работает на основе нейросетевой модели ruDALL-E, представленной в ноябре. Нейросеть доступна в разных видах, в том числе в виде бота в Telegram, который может преобразовать получившиеся изображения в набор стикеров.

В начале 2021 года OpenAI представила две связанные, но выполняющие обратные задачи нейросети: CLIP и DALL-E. Обе сети обучались на огромном количестве текстов и изображений, благодаря чему они научились связывать текстовое и визуальное представления одних и тех же объектов и понятий. CLIP подбирает текстовое описание для данного ей изображения, а DALL-E наоборот генерирует изображение по данному ей текстовому описанию.

Летом Сбер создал русскоязычную реализацию нейросети CLIP — ruCLIP, а в ноябре представил аналогичную адаптацию DALL-E — ruDALL-E. Теперь разработчики дообучили ruDALL-E, чтобы она могла генерировать не любые изображения, а эмодзи. В основе новой модели под названием Emojich лежит оригинальная модель ruDALL-E Malevich (XL) с 1,3 миллиарда параметров, обученная на 120 миллионах пар «изображение-описание». Примечательно, что для дообучения использовался несопоставимый по размеру объем данных — всего 2749 пар «эмодзи-описание». В результате модель научилась создавать изображения произвольных объектов и понятий, выполненные в стиле эмодзи.

Поскольку новый алгоритм основан на большой модели, обучавшейся на самых разных изображениях, Emojich не только умеет генерировать базовые эмодзи, но и хорошо передает уточняющие признаки.

Протестировать нейросеть можно на сайте или в телеграм-боте, который после генерации может автоматически создать на основе понравившихся изображений стикерпак.

Один из приемов, который использовали разработчики для сбора огромного обучающего датасета, заключается в том, что они переводили большую часть описаний с английского на русский. В целом этот подход оправдал себя, но из-за него нейросеть иногда выдает неожиданные результаты. Подробнее об этом можно прочитать в нашем блоге «Лучше синица в руках: о трудностях перевода».

Григорий Копиев