Компания OpenAI научила генеративную языковую нейросеть GPT-3 не только дополнять текст, но и редактировать его. Например, ее можно попросить переписать текст, объяснив нужные правки простыми словами. Описание новой функции доступно в блоге компании.
GPT-3 — это универсальная генеративная языковая модель, разработанная OpenAI в 2020 году. Она была предобучена на 570 гигабайтах неразмеченных текстов из интернета и благодаря этому сумела получить общее понимание того, как должен выглядеть осмысленный текст на языке, с которым она работает. После предобучения такой модели можно показать всего несколько примеров, чтобы обучить конкретной задаче, причем не обязательно текстовой по своей сути — к примеру, она оказалась способна выполнять простые арифметические действия.
GPT-3 позволяет писать тексты, но на самом деле способности изначальной модели сводятся к предсказыванию следующего слова в предложении. Постепенно разработчики дорабатывали нейросеть, в основном адаптируя ее к практическим задачам, в том числе к написанию кода по текстовой инструкции. Также они учат ее и новым возможностям. Например, недавно GPT-3 научили искать ответы на вопросы в интернете и подкреплять утверждения ссылками на источники.
Теперь разработчики из OpenAI научили нейросеть не только генерировать и дополнять текст, но и редактировать его. Редактирование работает в двух режимах. При собственно редактировании пользователь дает модели текст или программный код и описывает, что с ним нужно сделать, простым языком, например, алгоритм можно попросить переписать предложение, чтобы оно стало от первого лица.
Во втором режиме модель не редактирует текст, а вставляет в заданное место дополнение, для этого ей необходимо дать текст, идущий до и после этого места. К примеру, GPT-3 можно попросить написать логическую связку между двумя абзацами в тексте.
OpenAI обучила новым возможностям модели для генерации текста и кода. Они уже какое-то время тестировались в сервисе GitHub Copilot, пишущим код, а теперь доступно в бета-версии API для GPT-3 и Codex.
Оригинальная модель GPT-3 работает с английским языком, но уже существуют и русскоязычные адаптации: в 2020 году такую нейросеть представил Сбер, а в 2021 — Яндекс.
Григорий Копиев
Они поддерживают рассуждения и по производительности приближаются к проприетарным моделям
Компания OpenAI выпустила две текстовые большие языковые модели с открытыми весами под лицензией Apache 2.0: gpt-oss-120b с 117 миллиардами параметров и gpt-oss-20b с 21 миллиардом параметров. Это первый подобный релиз с момента открытия весов модели GPT-2 в 2019 году. Обе модели семейства gpt-oss имеют архитектуру Mixture-of-Experts, контекстное окно 128 тысяч токенов, поддерживают цепочки рассуждений и могут использовать внешние инструменты, например, веб-поиск и исполнение кода Python. По производительности они приближаются к o4-mini, при этом для работы младшей версии достаточно 16 гигабайт оперативной памяти. Об этом сообщается в блоге компании и карточке моделей.