Лучше синица в руках: о трудностях перевода

Во вторник 2 ноября Сбер представил нейросеть для генерации изображений по текстовому описанию ruDALL-E. А главное, разработчики запустили сайт, на котором работу алгоритма можно проверить, попросив ее сгенерировать что угодно. Вот мы и попросили:

Что происходит?

Нейросеть Сбера ruDALL-E основана на архитектуре DALL-E, которую OpenAI представила в январе этого года одновременно с нейросетью CLIP — та наоборот подбирает текстовое описание для изображений. Рассказывать об устройстве DALL-E и CLIP можно очень долго, если интересно, то предлагаем почитать подробности у самих разработчиков (CLIP, DALL-E) или послушать и посмотреть на более понятное описание на YouTube-канале Янника Килчера (CLIP, DALL-E). Главное свойство обеих моделей и успех разработчиков OpenAI заключается в том, что «посмотрев» на гигантский объем данных из интернета, эти нейросети научились очень качественно связывать между собой текстовое и визуальное представление самых разных объектов и понятий.

Так почему же на изображениях какие-то птицы? Все дело в том, что в английском у слова tits есть два значения: «синицы» и «сиськи». И поскольку нейросеть обучалась связывать между собой текстовое и визуальное представление понятий, даже непонятно, можно ли результат назвать ошибкой. Остается лишь вопрос о том, как русское слово превратилось в английское. Дело в том, что разработчики использовали датасеты с англоязычными описаниями и автоматически перевели их на русский с помощью своей же нейросети ruGPT-3.

Ладно, а синицы-то хоть те?

Мы попросили посмотреть на них нашего редактора-зоолога Сергея Коленова: