Разработчики из Сбера представили русскоязычную версию алгоритма для генерирования текста GPT-3, представленную в мае этого года. Чтобы обучить систему, команда собрала корпус из 600 гигабайтов русскоязычных текстов, включая корпус русской литературы, новостные сайты и публичные разделы Pikabu. В самой большой обученной модели, GPT-3 Large, 760 миллионов параметров, а саму модель выложили в открытый доступ. Подробнее об этом можно прочитать в блоге руководителя проекта Сергея Маркова на «Хабре».
В мае этого года разработчики из Open AI представили GPT-3 — новую версию своего алгоритма для генерирования текстов. Несмотря на использование той же самой архитектуры, что и в GPT-2, в новой версии разработчики увеличили количество используемых параметров, данных для обучения и способностей: GPT-3 умеет не только генерировать отдельные тексты, но также и отвечать на вопросы по прочитанному материалу, решать простые арифметические примеры, расшифровывать анаграммы и составлять стихи.
Кроме того, GPT-3 умеет переводить: разработчики не стали ограничивать язык текстов при сборе данных, так что в выборку попали семь процентов не англоязычных текстов. При этом текстов на других языках все же недостаточно для того, чтобы модель показывала похожие на английский язык результаты для других языков: на них ее нужно обучать отдельно.
Сделать это для русского языка решили разработчики из Сбера. Для обучения GPT-3 на русском языке они совместно с разработчиками из AGI NLP собрали корпус текстов размером 600 гигабайтов (для сравнения, при обучении оригинальной GPT-3 разработчики Open AI использовали 570 гигабайтов текстов). Для обучения использовали корпус русской литературы, русскую и английскую «Википедию», новостные сайты, публичные разделы сайта Pikabu и корпус Omnia Russica. Как и в случае с оригинальной англоязычной моделью GPT-3, модель Сбера не полностью русскоязычная: доля иностранных языков в обучающей выборке составила 10 процентов.
Разработчики Сбера для обучения взяли модель GPT-3 Large: Open AI представили несколько моделей GPT-3, отличающиеся количеством параметров (от 125 миллионов до 175 миллиардов в самой последней версии), и в версии Large параметров (устанавливаемых в самом начале обучения) — 760 миллионов (также разработчики обучили и GPT-3 Middle — в ней 356 миллионов параметров).
Для обучения использовали суперкомпьютер «Кристофари», представленный Сбером в прошлом году. Исходный код модели разработчики выложили на GitHub, а его работу можно посмотреть, например, с помощью бота GenerativeBeast_2.0 в телеграме или также — в репозитории. В целом, русскоязычная модель, судя по всему, может все то же самое, что умеет и оригинальная — даже писать небольшие куски «весьма осмысленного» программного кода.
Несмотря на то, что алгоритмы для генерирования текста сейчас — самое популярное ответвление NLP, другие проекты тоже активно развиваются: например, пару дней назад Facebook рассказала о системе машинного перевода, которая обходится без дополнительного шага с переводом текста на английский.
Елизавета Ивтушок
Что мы знаем о том, как «думают» нейросети?
Почти везде, где мы применяем искусственный интеллект, от распознавания речи до беспилотных автомобилей, важную роль играет машинное обучение. Это большой раздел ИИ, который исследует методы построения алгоритмов, способных к обучению. В мультфильме, который мы подготовили совместно с Yandex Research, рассказываем, как обучаются нейросети и почему нам трудно (но важно) понимать логику их решений.