Сбер научил нейросеть создавать новые эмодзи по текстовому описанию. Она работает на основе нейросетевой модели ruDALL-E, представленной в ноябре. Нейросеть доступна в разных видах, в том числе в виде бота в Telegram, который может преобразовать получившиеся изображения в набор стикеров.
В начале 2021 года OpenAI представила две связанные, но выполняющие обратные задачи нейросети: CLIP и DALL-E. Обе сети обучались на огромном количестве текстов и изображений, благодаря чему они научились связывать текстовое и визуальное представления одних и тех же объектов и понятий. CLIP подбирает текстовое описание для данного ей изображения, а DALL-E наоборот генерирует изображение по данному ей текстовому описанию.
Летом Сбер создал русскоязычную реализацию нейросети CLIP — ruCLIP, а в ноябре представил аналогичную адаптацию DALL-E — ruDALL-E. Теперь разработчики дообучили ruDALL-E, чтобы она могла генерировать не любые изображения, а эмодзи. В основе новой модели под названием Emojich лежит оригинальная модель ruDALL-E Malevich (XL) с 1,3 миллиарда параметров, обученная на 120 миллионах пар «изображение-описание». Примечательно, что для дообучения использовался несопоставимый по размеру объем данных — всего 2749 пар «эмодзи-описание». В результате модель научилась создавать изображения произвольных объектов и понятий, выполненные в стиле эмодзи.
Поскольку новый алгоритм основан на большой модели, обучавшейся на самых разных изображениях, Emojich не только умеет генерировать базовые эмодзи, но и хорошо передает уточняющие признаки.
Протестировать нейросеть можно на сайте или в телеграм-боте, который после генерации может автоматически создать на основе понравившихся изображений стикерпак.
Один из приемов, который использовали разработчики для сбора огромного обучающего датасета, заключается в том, что они переводили большую часть описаний с английского на русский. В целом этот подход оправдал себя, но из-за него нейросеть иногда выдает неожиданные результаты. Подробнее об этом можно прочитать в нашем блоге «Лучше синица в руках: о трудностях перевода».
Григорий Копиев
Как онлайн-платформы манипулируют нашим выбором и что вернет нам свободу
Мнение редакции может не совпадать с мнением автора
Если меньше времени проводить в социальных медиа, можно избавиться от чувства одиночества и симптомов депрессии. Правда, сделать это непросто: соцсети устроены так, чтобы мы возвращались туда чаще и оставляли за собой как можно более длинный цифровой след. В книге «Новые боги: Как онлайн-платформы манипулируют нашим выбором и что вернет нам свободу» (издательство «Individuum»), переведенной на русский язык Екатериной Токовининой, психолог Кристиан Монтаг рассказывает, как технологические гиганты следят за нами, какие уловки используют, чтобы удерживать нас у экранов, почему некоторые люди особенно восприимчивы к ним и где здоровое потребление контента переходит в зависимость. Предлагаем вам ознакомиться с фрагментом, посвященным анализу психических состояний человека на основе данных, которые собирает смартфон.