Самая большая из них превосходит GPT-4 в 30 из 32 тестах. Но ненамного
Компания Google представила семейство мультимодальных нейросетевых моделей Gemini, которые способны оперировать, обобщать, и комбинировать информацию различного типа, включая текст изображения, аудио, видео, а также программный код. В отличие от других больших языковых моделей, таких, например, как GPT-4 от OpenAI, которая изначально обучалась только на текстах, Gemini создавалась сразу с расчетом на работу с разнородной информацией. Согласно опубликованным данным самая большая модель из семейства Gemini превосходит (не очень значительно) GPT-4 в 30 из 32 тестов, включая популярный бенчмарк MMLU (massive multitask language understanding) с вопросами из 57 экзаменов по разным предметам, в котором модель Google даже слегка превзошла человеческий результат. Краткое описание новой модели опубликовано в блоге компании. Больше технических подробностей можно также найти в выложенной на сайте статье.
При поддержке высокопроизводительного и масштабируемого российского веб-сервера Angie
Всего будут доступны три варианта модели Gemini, которые, по всей видимости, различаются количеством параметров. Средняя из них, Gemini Pro, судя по опубликованным данным превосходит GPT-3.5 от OpenAI в шести бенчмарках из восьми. Она заменила предыдущую языковую модель компании PaLM 2 в чат-боте Bard. Чат-бот с Pro версией модели сейчас доступен в 170 странах, правда, пока только на английском языке. Корпоративные клиенты и разработчики смогут получить доступ к возможностям Pro версии через API на платформах Google Generative AI Studio и Google Cloud Vertex AI начиная с 13 декабря. Gemini Nano — самая маленькая версия — предназначена для локального использования на мобильных устройствах и появится первым делом на смартфонах Google Pixel 8. Самая большая и мощная версия Gemini Ultra дебютирует только в 2024 году. На ее основе планируется запустить продвинутую версию чат-бота Bard Advanced.
Модель разработали в Японии
Даидзю Уэда (Daiju Ueda) с коллегами по Метропольному университету Осаки разработал модель на основе алгоритмов глубокого машинного обучения, которая эффективно выявляет жировую инфильтрацию (стеатоз) печени по рентгенограммам органов грудной клетки. В работе использовали данные 4414 пациентов двух японских клиник, которым выполнили по 6599 снимков грудной клетки и эластограмм печени с определением контролируемого параметра затухания (CAP, количественный показатель степени стеатоза). Пациентов одной из клиник случайным образом распределили в соотношении 8:1:1 в датасеты для обучения, настройки и внутреннего тестирования модели, а участники из второй клиники вошли в датасет внешнего тестирования. Результаты опубликованы в журнале Radiology: Cardiothoracic Imaging.