Google представила семейство мультимодальных моделей Gemini

Самая большая из них превосходит GPT-4 в 30 из 32 тестах. Но ненамного

Андрей Фокин

Компания Google представила семейство мультимодальных нейросетевых моделей Gemini, которые способны оперировать, обобщать, и комбинировать информацию различного типа, включая текст изображения, аудио, видео, а также программный код. В отличие от других больших языковых моделей, таких, например, как GPT-4 от OpenAI, которая изначально обучалась только на текстах, Gemini создавалась сразу с расчетом на работу с разнородной информацией. Согласно опубликованным данным самая большая модель из семейства Gemini превосходит (не очень значительно) GPT-4 в 30 из 32 тестов, включая популярный бенчмарк MMLU (massive multitask language understanding) с вопросами из 57 экзаменов по разным предметам, в котором модель Google даже слегка превзошла человеческий результат. Краткое описание новой модели опубликовано в блоге компании. Больше технических подробностей можно также найти в выложенной на сайте статье.

При поддержке высокопроизводительного и масштабируемого российского веб-сервера Angie

Всего будут доступны три варианта модели Gemini, которые, по всей видимости, различаются количеством параметров. Средняя из них, Gemini Pro, судя по опубликованным данным превосходит GPT-3.5 от OpenAI в шести бенчмарках из восьми. Она заменила предыдущую языковую модель компании PaLM 2 в чат-боте Bard. Чат-бот с Pro версией модели сейчас доступен в 170 странах, правда, пока только на английском языке. Корпоративные клиенты и разработчики смогут получить доступ к возможностям Pro версии через API на платформах Google Generative AI Studio и Google Cloud Vertex AI начиная с 13 декабря. Gemini Nano — самая маленькая версия — предназначена для локального использования на мобильных устройствах и появится первым делом на смартфонах Google Pixel 8. Самая большая и мощная версия Gemini Ultra дебютирует только в 2024 году. На ее основе планируется запустить продвинутую версию чат-бота Bard Advanced.