Сбер научил нейросеть создавать новые эмодзи по текстовому описанию. Она работает на основе нейросетевой модели ruDALL-E, представленной в ноябре. Нейросеть доступна в разных видах, в том числе в виде бота в Telegram, который может преобразовать получившиеся изображения в набор стикеров.
В начале 2021 года OpenAI представила две связанные, но выполняющие обратные задачи нейросети: CLIP и DALL-E. Обе сети обучались на огромном количестве текстов и изображений, благодаря чему они научились связывать текстовое и визуальное представления одних и тех же объектов и понятий. CLIP подбирает текстовое описание для данного ей изображения, а DALL-E наоборот генерирует изображение по данному ей текстовому описанию.
Летом Сбер создал русскоязычную реализацию нейросети CLIP — ruCLIP, а в ноябре представил аналогичную адаптацию DALL-E — ruDALL-E. Теперь разработчики дообучили ruDALL-E, чтобы она могла генерировать не любые изображения, а эмодзи. В основе новой модели под названием Emojich лежит оригинальная модель ruDALL-E Malevich (XL) с 1,3 миллиарда параметров, обученная на 120 миллионах пар «изображение-описание». Примечательно, что для дообучения использовался несопоставимый по размеру объем данных — всего 2749 пар «эмодзи-описание». В результате модель научилась создавать изображения произвольных объектов и понятий, выполненные в стиле эмодзи.
Поскольку новый алгоритм основан на большой модели, обучавшейся на самых разных изображениях, Emojich не только умеет генерировать базовые эмодзи, но и хорошо передает уточняющие признаки.
Протестировать нейросеть можно на сайте или в телеграм-боте, который после генерации может автоматически создать на основе понравившихся изображений стикерпак.
Один из приемов, который использовали разработчики для сбора огромного обучающего датасета, заключается в том, что они переводили большую часть описаний с английского на русский. В целом этот подход оправдал себя, но из-за него нейросеть иногда выдает неожиданные результаты. Подробнее об этом можно прочитать в нашем блоге «Лучше синица в руках: о трудностях перевода».
Григорий Копиев
Что мы знаем о том, как «думают» нейросети?
Почти везде, где мы применяем искусственный интеллект, от распознавания речи до беспилотных автомобилей, важную роль играет машинное обучение. Это большой раздел ИИ, который исследует методы построения алгоритмов, способных к обучению. В мультфильме, который мы подготовили совместно с Yandex Research, рассказываем, как обучаются нейросети и почему нам трудно (но важно) понимать логику их решений.