Яндекс выложил в открытый доступ языковую модель со 100 миллиардами параметров

Яндекс создал и опубликовал версию генеративной языковой модели YaLM со 100 миллиардами параметров, сообщается в пресс-релизе, поступившем в редакцию N + 1. Это крупнейшая русскоязычная модель и самая большая из тех, чей код и веса публично доступны (они опубликованы на GitHub). Кроме русского языка она также получила поддержку английского.

В 2017 году исследователи из Google представили нейросетевую архитектуру Transformer, которая активно использует механизм внимания, позволяющий алгоритму фокусироваться на важных участках текста. Эта архитектура привела к бурному развитию моделей машинного обучения для обработки естественного языка (NLP). Важнейшим представителем этого направления стали нейросети семейства GPT от OpenAI. Их разработчики показали несколько важных аспектов работы Transformer-моделей. Во-первых, оказалось, что предобучение на большом корпусе неразмеченных текстов позволяет создать универсальную языковую модель, которая может адаптироваться к новой задаче по нескольким примерам. Во-вторых, выяснилось, что масштабирование модели позволяет значительно повысить качество ее работы. В результате многие передовые модели стали иметь сотни миллиардов или даже триллионы параметров.

Для обучения таких гигантстких моделей необходимы соответствующие вычислительные мощности. К примеру, в статье OpenAI о GPT-3 отмечается, что для самой крупной модели с 175 миллиардами параметров понадобилось 3,14 × 1023 флопс, а сторонние исследователи оценили затраты на это в 4,6 миллиона долларов. При этом из-за высокого качества генерации передовые NLP-алгоритмы, как правило, не выкладываются в открытый доступ из-за опасений, что их можно будет применять во вред, к примеру, для создания реалистичных ботов в соцсетях. Таким образом сложилась ситуация, при которой фактически доступ к таким технологиям сосредоточен в руках крупнейших IT-компаний с огромными датацентрами, тогда как исследователи и не такие большие компании его лишены. Она осложняется в неанглоязычных странах и сообществах, потому что передовые алгоритмы, как правило, обучаются на английском языке.

До недавнего времени крупнейшей публично доступной русскоязычной языковой моделью была ruGPT3XL от Сбера с 1,3 миллиардами параметров. Теперь Яндекс представил и выложил в открытый доступ версию языковой модели YaLM со 100 миллиардами параметров. Она использует ту же архитектуру, что и оригинальная YaLM, представленная в прошлом году, а та в свою очередь была вдохновлена GPT-3.

Модель обучали на 1,7 терабайта текстов на русском и английском языках, поэтому теперь она умеет говорить как по-русски, так и по-английски. Обучение проходило на суперкомпьютерах Яндекса, для этого использовалось 800 графических ускорителей NVIDIA A100, а весь процесс занял два месяца. Подробнее о процессе обучения можно прочитать в блоге Яндекса.

Код и предобученную модель можно скачать на GitHub, они распространяются по лицензии Apache 2.0, разрешающей в том числе и коммерческое использования. Сама компания использует YaLM в своих проектах, в том числе Алисе и поиске, где она помогает формировать готовые ответы и карточки с описанием.

Вероятно, YaLM можно назвать крупнейшей из публично доступных генеративных языковых моделей. В мае Meta выложила GPT-подобную модель OPT, для нее доступны предобученные версии вплоть до 66 миллиардов параметров, а версия на 175 миллиардов предоставляется лишь некоторым исследователям по запросу.

YaLM не будет доступна в виде публичной демо-версии, но N + 1 смог заранее протестировать модель и поговорить с ней на разные темы — об этом читайте в нашем блоге.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Модель GenCast точно предскажет экстремальные погодные явления

Она уже справилась с предсказанием траектории тайфуна Хагибис