Сбер научил нейросеть создавать новые эмодзи по текстовому описанию. Она работает на основе нейросетевой модели ruDALL-E, представленной в ноябре. Нейросеть доступна в разных видах, в том числе в виде бота в Telegram, который может преобразовать получившиеся изображения в набор стикеров.
В начале 2021 года OpenAI представила две связанные, но выполняющие обратные задачи нейросети: CLIP и DALL-E. Обе сети обучались на огромном количестве текстов и изображений, благодаря чему они научились связывать текстовое и визуальное представления одних и тех же объектов и понятий. CLIP подбирает текстовое описание для данного ей изображения, а DALL-E наоборот генерирует изображение по данному ей текстовому описанию.
Летом Сбер создал русскоязычную реализацию нейросети CLIP — ruCLIP, а в ноябре представил аналогичную адаптацию DALL-E — ruDALL-E. Теперь разработчики дообучили ruDALL-E, чтобы она могла генерировать не любые изображения, а эмодзи. В основе новой модели под названием Emojich лежит оригинальная модель ruDALL-E Malevich (XL) с 1,3 миллиарда параметров, обученная на 120 миллионах пар «изображение-описание». Примечательно, что для дообучения использовался несопоставимый по размеру объем данных — всего 2749 пар «эмодзи-описание». В результате модель научилась создавать изображения произвольных объектов и понятий, выполненные в стиле эмодзи.
Поскольку новый алгоритм основан на большой модели, обучавшейся на самых разных изображениях, Emojich не только умеет генерировать базовые эмодзи, но и хорошо передает уточняющие признаки.
Протестировать нейросеть можно на сайте или в телеграм-боте, который после генерации может автоматически создать на основе понравившихся изображений стикерпак.
Один из приемов, который использовали разработчики для сбора огромного обучающего датасета, заключается в том, что они переводили большую часть описаний с английского на русский. В целом этот подход оправдал себя, но из-за него нейросеть иногда выдает неожиданные результаты. Подробнее об этом можно прочитать в нашем блоге «Лучше синица в руках: о трудностях перевода».
Григорий Копиев