Сбер обучил GPT-3 на 600 гигабайтах русских текстов

Загрузка галереи

Разработчики из Сбера представили русскоязычную версию алгоритма для генерирования текста GPT-3, представленную в мае этого года. Чтобы обучить систему, команда собрала корпус из 600 гигабайтов русскоязычных текстов, включая корпус русской литературы, новостные сайты и публичные разделы Pikabu. В самой большой обученной модели, GPT-3 Large, 760 миллионов параметров, а саму модель выложили в открытый доступ. Подробнее об этом можно прочитать в блоге руководителя проекта Сергея Маркова на «Хабре».

В мае этого года разработчики из Open AI представили GPT-3 — новую версию своего алгоритма для генерирования текстов. Несмотря на использование той же самой архитектуры, что и в GPT-2, в новой версии разработчики увеличили количество используемых параметров, данных для обучения и способностей: GPT-3 умеет не только генерировать отдельные тексты, но также и отвечать на вопросы по прочитанному материалу, решать простые арифметические примеры, расшифровывать анаграммы и составлять стихи.

Кроме того, GPT-3 умеет переводить: разработчики не стали ограничивать язык текстов при сборе данных, так что в выборку попали семь процентов не англоязычных текстов. При этом текстов на других языках все же недостаточно для того, чтобы модель показывала похожие на английский язык результаты для других языков: на них ее нужно обучать отдельно.

Сделать это для русского языка решили разработчики из Сбера. Для обучения GPT-3 на русском языке они совместно с разработчиками из AGI NLP собрали корпус текстов размером 600 гигабайтов (для сравнения, при обучении оригинальной GPT-3 разработчики Open AI использовали 570 гигабайтов текстов). Для обучения использовали корпус русской литературы, русскую и английскую «Википедию», новостные сайты, публичные разделы сайта Pikabu и корпус Omnia Russica. Как и в случае с оригинальной англоязычной моделью GPT-3, модель Сбера не полностью русскоязычная: доля иностранных языков в обучающей выборке составила 10 процентов.

Разработчики Сбера для обучения взяли модель GPT-3 Large: Open AI представили несколько моделей GPT-3, отличающиеся количеством параметров (от 125 миллионов до 175 миллиардов в самой последней версии), и в версии Large параметров (устанавливаемых в самом начале обучения) — 760 миллионов (также разработчики обучили и GPT-3 Middle — в ней 356 миллионов параметров).

Для обучения использовали суперкомпьютер «Кристофари», представленный Сбером в прошлом году. Исходный код модели разработчики выложили на GitHub, а его работу можно посмотреть, например, с помощью бота GenerativeBeast_2.0 в телеграме или также — в репозитории. В целом, русскоязычная модель, судя по всему, может все то же самое, что умеет и оригинальная — даже писать небольшие куски «весьма осмысленного» программного кода.

Несмотря на то, что алгоритмы для генерирования текста сейчас — самое популярное ответвление NLP, другие проекты тоже активно развиваются: например, пару дней назад Facebook рассказала о системе машинного перевода, которая обходится без дополнительного шага с переводом текста на английский.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Зоопарк алгоритмов

Что такое нейросети и какими они бывают

Сергей Кузнецов

Всего за пару десятков лет нейросети, кажется, научились всему: от генерации текста и изображений до прогноза погоды, вождения автомобилей и обнаружения патологий на рентгеновских снимках. Тем не менее, в отличие от нашего мозга, созданные по его подобию инструменты неуниверсальны — для решения конкретных задач нейросети постоянно изменяют и совершенствуют. Рассказываем, как они устроены, чем отличаются друг от друга и почему ни одна нейросеть не способна обойтись без человека.