Самая большая из них превосходит GPT-4 в 30 из 32 тестах. Но ненамного
Компания Google представила семейство мультимодальных нейросетевых моделей Gemini, которые способны оперировать, обобщать, и комбинировать информацию различного типа, включая текст изображения, аудио, видео, а также программный код. В отличие от других больших языковых моделей, таких, например, как GPT-4 от OpenAI, которая изначально обучалась только на текстах, Gemini создавалась сразу с расчетом на работу с разнородной информацией. Согласно опубликованным данным самая большая модель из семейства Gemini превосходит (не очень значительно) GPT-4 в 30 из 32 тестов, включая популярный бенчмарк MMLU (massive multitask language understanding) с вопросами из 57 экзаменов по разным предметам, в котором модель Google даже слегка превзошла человеческий результат. Краткое описание новой модели опубликовано в блоге компании. Больше технических подробностей можно также найти в выложенной на сайте статье.
При поддержке высокопроизводительного и масштабируемого российского веб-сервера Angie
Всего будут доступны три варианта модели Gemini, которые, по всей видимости, различаются количеством параметров. Средняя из них, Gemini Pro, судя по опубликованным данным превосходит GPT-3.5 от OpenAI в шести бенчмарках из восьми. Она заменила предыдущую языковую модель компании PaLM 2 в чат-боте Bard. Чат-бот с Pro версией модели сейчас доступен в 170 странах, правда, пока только на английском языке. Корпоративные клиенты и разработчики смогут получить доступ к возможностям Pro версии через API на платформах Google Generative AI Studio и Google Cloud Vertex AI начиная с 13 декабря. Gemini Nano — самая маленькая версия — предназначена для локального использования на мобильных устройствах и появится первым делом на смартфонах Google Pixel 8. Самая большая и мощная версия Gemini Ultra дебютирует только в 2024 году. На ее основе планируется запустить продвинутую версию чат-бота Bard Advanced.
Она превосходит по качеству все предыдущие модели
Компания OpenAI представила новую диффузионную генеративную модель машинного обучения под названием Sora, которая умеет создавать по текстовому описанию видео высокого качества с малым количеством артефактов, разрешением до 1920×1080 и продолжительностью до одной минуты. Помимо этого, Sora может дополнять новыми кадрами уже существующие видеофрагменты, а также создавать новые и анимировать уже существующие статичные изображения. Пост с кратким обзором возможностей модели, а также статья с некоторыми техническими подробностями опубликованы на сайте компании.