OpenAI представила мультимодальную генеративную модель GPT-4o

Она умеет разговаривать, видеть, и имитирует эмоции

Компания OpenAI представила мультимодальную генеративную модель GPT-4o, которая может работать с текстом, аудио и изображениями, включая видео. Модель может общаться с пользователем голосом и поддерживает 50 языков. Она может имитировать различные интонации, шепот, пение, смех. При этом модель работает гораздо быстрее предшествующей версии — время задержки ответа в голосовом режиме составляет в среднем около 0,3 секунды, что сравнимо с временем реакции человека. Также модель может видеть, получая и интерпретируя изображение с камеры в реальном времени. Трансляция презентации велась на YouTube.

Первая генеративная языковая модель уровня GPT-4 была представлена компанией OpenAI в марте 2023 года. В отличие от более ранней версии GPT-3.5, которая могла работать только с текстовой информацией, GPT-4 впервые получила способность принимать в качестве входных данных также и изображения. Кроме этого, в том же году состоялся релиз приложения на основе чат-бота ChatGPT с возможностью распознавания речи и синтеза голоса, что позволяло пользователям разговаривать с моделью и использовать ее в роли голосового ассистента.

В понедельник 13 мая 2024 года во время прямой трансляции на YouTube состоялась презентация новой версии GPT-4, которая получила обозначение GPT-4o (символ «о» в конце означает «omni»). Теперь модель принимает в качестве входных данных любую комбинацию текста, звука и изображения, включая видео. При этом она работает гораздо быстрее своей предшественницы, в том числе и во время голосового общения. Генерация ответа происходит со средней задержкой всего лишь 320 миллисекунд, что сравнимо со временем реакции человека в разговоре.

Время задержки ответа прошлой версии при общении голосом составляло 5,4 секунды. Связано это с тем, что раньше голосовой режим задействовал целый конвейер из трех отдельных моделей. Сначала речь переводилась в текст. Он затем поступал на вход GPT-3.5 или GPT-4, а генерированный моделью текстовый ответ снова преобразовывался в аудио с помощью другой модели, синтезирующей речь. Преобразование данных в текст приводило к потере части важной информации: фоновых звуков, тона голоса собеседника и его эмоций. GPT-4o лишена этого недостатка, так как в ней все типы информации, включая текст, аудио и изображение обрабатываются с помощью одной и той же нейросети.

Новая модель не только работает значительно быстрее, но может распознавать интонации и эмоции собеседника, а также умеет сама изменять силу, тембр, высоту и эмоциональную окраску синтезируемого голоса. Модель может говорить с сарказмом, шептать, смеяться и даже петь, что было продемонстрировано во время презентации, в которой ChatGPT c GPT-4o, имитировал голос робота, а в другом видео модель просили спеть колыбельную. Кстати, речь GPT-4o можно перебивать без последствий — модель в беседе ведет себя почти так же естественно, как и человек, воспринимает дополнительную информацию и продолжает диалог, сохраняя контекст происходящего.

Другая особенность GPT-4o — распознавание изображения, включая видео в реальном времени. По сути, модель может буквально видеть и интерпретировать происходящее в кадре. Во время презентации, например, ChatGPT правильно определил эмоции сотрудника OpenAI по видео с фронтальной камеры смартфона. В другой демонстрации сотрудник OpenAI рассмешил модель GPT-4o, представ перед ней с панамой на голове с вопросом о том, может ли он отправиться в таком виде на важное собеседование.

Также модель может отличать разных людей в кадре, запоминать их имена и интерпретировать действия. Эта особенность показана в видео, где два сотрудника компании играют в «камень, ножницы, бумага» перед включенной камерой и просят модель, которая наблюдает за ними, выступить в роли судьи. Еще одно из возможных применений — использование голосового ассистента в роли голосового переводчика, так как модель способна переводить с одного языка на другой в реальном времени.

Контекстное окно GPT-4o составляет 128 тысяч токенов (часть слова в несколько символов), а количество поддерживаемых языков достигает 50. Более того, OpenAI откроет ее и для бесплатного использования в чат-боте ChatGPT, однако с ограничениями на количество запросов за определенное время. Доступ к возможностям новой модели будет открываться итеративно. Текстовая генерация, например, стала доступна в день презентации, в то время как обработка аудио и видео будут добавлены позднее.

Кроме демонстрации возможностей GPT-4o, на презентации также было анонсировано приложение для операционной системы macOS. С его помощью пользователи смогут получать помощь от модели прямо внутри операционной системы, демонстрируя ей экран и выделяя нужную информацию. В качестве примера, сотрудники предложили модели проанализировать исходный код и график с данными, с чем она успешно справилась.

Несколько месяцев назад компания OpenAI представила генеративную модель для создания видео под названием Sora. Она способна генерировать по текстовому описанию видеоролики высокого качества с малым количеством артефактов продолжительностью до одной минуты. Изображение в них сохраняет правильную перспективу, а объекты согласованно перемещаются в пространстве сцены относительно движущейся камеры.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Глубокое обучение привлекли к проблеме аномального магнитного момента мюона

Нейросеть пригодится в будущих экспериментах повышенной светимости