OpenAI представила GPT-4 с поддержкой изображений

Microsoft подтвердила, что уже некоторое время использует алгоритм в Bing

Компания OpenAI представила генеративную языковую модель GPT-4. Новая версия модели получила более высокие результаты в бенчмарках, причем не только на английском языке. Также алгоритм научился принимать не только текст, но и изображения (но генерирует он по-прежнему лишь текстовые ответы). Наконец, GPT-4 лучше определяет опасные и дискриминирующие запросы, например, просьбу написать инструкцию по сборке бомбы. OpenAI открыла ограниченный доступ к GPT-4 подписчикам ChatGPT Plus, а также открыла прием заявок на доступ к API, но в обоих случаях речь идет о версии модели без поддержки изображений. Описание GPT-4 опубликовано на сайте OpenAI, а также доступно в виде научной статьи.

Аббревиатура GPT расшифровывается как Generative Pretrained Transformer или генеративный предобученный трансформер. Трансформер в этом контексте относится к архитектуре Transformer, представленной исследователями из Google в 2017 году. Главное преимущество новой архитектуры по сравнению с широко используемыми до этого рекуррентными нейросетями заключалось в механизме внимания. Если в рекуррентных нейросетях предыдущие слова из текста сжимаются в единый вектор, то механизм внимания позволил алгоритму “смотреть” на все слова и фокусироваться на наиболее важных. Механизм внимания позволил значительно повысить качество работы языковых моделей.

В 2018 году OpenAI представила нейросеть GPT, основанную на Transfomer. Новшество этой работы заключалось в том, что исследователи решили сначала обучать модель на большом неразмеченном объеме данных (7000 книг), а затем дообучать на сравнительно небольших размеченных датасетах для выполнения конкретных задач. Подход с предобучением показал хорошие результаты, поэтому OpenAI снова применила его в GPT-2 и GPT-3, но на порядки увеличила количество параметров модели: 0,12 миллиарда в первой GPT, 1,5 во второй и 175 в третьей. Значительно увеличивались и неразмеченные датасеты, которые стали собирать из интернета. В результате обучение на большом неразмеченном датасете превратилось из первичного этапа для создания модели-заготовки в единственный этап обучения. GPT-3 смогла решать разные задачи по работе с текстом, требуя лишь несколько примеров, а также показала отличные результаты на множестве бенчмарков.

В 2022 году OpenAI отошла от подхода с обучением только на неразмеченных данных, добавив стадию дообучения с оценкой людей-экспертов. Они брали запрос к модели и самостоятельно писали для него наиболее подходящий ответ. Также они оценивали работу модели, выбирая лучший ответ из нескольких вариантов. На основе этих данных OpenAI дообучила алгоритм, назвав полученную модель InstructGPT. СhatGPT, вышедшая в конце 2022 года, обучалась аналогичным образом, но эксперты также работали с ней в режиме диалога и писали ответы для обеих сторон.

14 марта 2023 года OpenAI представила GPT-4, но не раскрыла практически никаких технических деталей, касающихся архитектуры, количества параметров, обучения и использованных датасетов. В блоге и статье компания в основном сконцетрировалась на безопасности модели и ее эффективности. 

Как и в случае с предыдущими моделями, задача GPT-4 заключается в предсказании следующего токена (часть предложения, чаще всего слово или знак препинания) в тексте. Одной из особенностей нового алгоритма стала возможность работы с изображениями. Модель может принимать изображения в качестве входящих данных вместе с текстом, но результатом ее работы по-прежнему может быть только текст. Например, ее можно попросить описать изображение или объяснить мем. А на презентации вскоре после анонса GPT-4 ведущий показал, как модель может превратить набросок сайта из записной книжки в реальный код страницы. Компания отмечает, что возможность работы с изображениями пока находится в альфа-версии и публично не доступна.

GPT-4 ожидаемо показала рекордные результаты в нескольких бенчмарках для языковых моделей, однако более интересно, что она также оказалась сравнима с людьми в качестве прохождения многих профессиональных экзаменов. Так, в экзамене для юристов LSAT результат модели оказался равен 88 процентилю (другими словами, GPT-4 получила результат выше, чем у 88 процентов людей, принимающих участие в экзамене), в экзамене по математике SAT Math – 89 процентиль. При этом OpenAI отмечает, что при обычном разговоре с моделью отличие от GPT-3.5 (предыдущая версия, основанная на InstructGPT) может быть почти незаметно.

Важно, что повышение эффективности коснулось многих языков. Для 24 из 26 проверенных языков результат GPT-4 в бенчмарке MMLU оказался более высоким, чем результат GPT-3,5 для английского языка.

Даже большее внимание чем эффективности OpenAI уделила безопасности модели. Известно, что GPT-4 обучали в два основных этапа, как и предыдущие версии, представленные в прошлом году: сначала на большом объеме данных из интернета, а затем с помощью людей-экспертов. В качестве экспертов OpenAI пригласила более 50 специалистов из разных областей, например, по информационной безопасности и биологической защите. Собранные ими данные помогли отучить базовую GPT-4 давать опасные ответы, такие как инструкции по синтезу запрещенных веществ. Также компания научила модель не отвечать на чувствительные социальные темы:

После анонса компания начала открывать доступ к GPT-4 подписчикам сервиса ChatGPT Plus. Кроме того, Microsoft объявила, что новая версия ее поиска Bing, представленная в начале февраля, работает именно на GPT-4. Доступ к модели по API и поддержка изображений появится в будущем. Также OpenAI рассказала, что протестировала работу GPT-4 с некоторыми сторонними сервисами. Например, алгоритм позволил создать бота в Duolingo, объясняющего ответы пользователя. А с одним из партнеров OpenAI продемонстрировала применение способности работать с изображениями: сервис Be My Eyes внедрил GPT-4, чтобы незрячие пользователи могли присылать нейросети фотографии объектов и задавать вопросы о них.

Предыдущая большая языковая модель OpenAI - ChatGPT - получила большое внимание как обычных людей, так и профессиональных сообществ. В январе издательства Nature и Science запретили указывать бота в качестве соавтора научных статей.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Кусочек песни Pink Floyd декодировали по активности мозга

Для этого пациентам с эпилепсией и электродами в мозге пришлось ее послушать