ym88659208ym87991671
Обновления моделей | Документация для разработчиков

Обновления моделей

Обновлено 10 декабря 2024

В этом разделе вы найдете информацию о качестве работы и возможностях новых версий моделей GigaChat.

Качество работы каждой новой версии модели проверяется с помощью нескольких бенчмарков:

  • MMLU (Multimodal Language Understanding) и его русскоязычная версия ruMMLU. Метрика MMLU оценивает общие способности моделей понимать и отвечать на вопросы из различных областей знаний.
  • GSM8K — метрика, которая позволяет оценить знания LLM на уровне школьной математики.
  • MATH — метрика, которая представляет более широкий набор задач, в том числе по алгебре, геометрии и даже математическому анализу – вплоть до университетского уровня.
  • MT-Bench — метрика из 160 вопросов для оценки генеративных способностей LLM, включая фактологию, способность следовать инструкциям, поддерживать диалог с контекстом, использовать форматирование и решать иные задачи. В качестве судьи используется сильная LLM (gpt-4o), которая оценивает качество ответов по шкале от 0 до 10.
  • Arena-Hard - бенчмарк также оценивающий генеративные способности LLM в диалогах. Содержит 500 вопросов в основном по техническим тематикам, включая математику и программирование. Особенностью оценки является ELO-рейтинг, который формируется на основе сравнения ответа оцениваемой моделей с базовой (gpt-4). Судья (gpt-4o) в таком случае не проставляет оценку от 0 до 10, а выбирает ответ какой модели лучше - базовой или оцениваемой. На основе таких сравнений рассчитывается итоговый рейтинг оцениваемой модели.
  • Human Eval — метрика используется для оценки способности моделей производить результаты, которые соответствуют человеческому восприятию.

Версия: 26.20 Дата релиза: 31.10.2024 Статус: Доступна

В версии 26.20 добавлена новая модель GigaChat Max.

Для запросов к модели используйте адрес https://gigachat-preview.devices.sberbank.ru/api/v1/, а в поле model передавайте GigaChat-Max-preview. Для работы с моделью нужны оплаченные токены.

В таблице представлены основные характеристики и возможности новой версии моделей.

ХарактеристикиGigaChat LiteGigaChat ProGigaChat Max
Размер контекста в токенах32K32K32K
Поддержка функций
Генерация изображений
Обработка изображений

В таблице представлены результаты проверки моделей с помощью разных бенчмарков.

МетрикаGigaChat LiteGigaChat ProGigaChat Max
MMLU (5-shot)0.650.690.8
ruMMLU (5-shot)0.60.650.75
GSM8K (5-shot)0.660.780.93
MATH (4-shot)0.340.450.53
MT-Bench (average)
 фильтром безопасности)
7.17.458.2
MT-Bench (average)
(без фильтра безопасности)
6.937.598.3
Arena-Hard EN
 фильтром безопасности)
50.7
Arena-Hard EN
(без фильтра безопасности)
11.018.051.9
Arena-Hard RU
 фильтром безопасности)
70.7
Arena-Hard RU
(без фильтра безопасности)
25.945.573.3
Human Eval (0-shot)0.370.440.64

Версия: 26.15 Дата релиза: 01.10.2024 Статус: Доступна

В версии 26.15:

  • Теперь в запросах к модели GigaChat Pro можно передавать изображения.
  • В моделях GigaChat Lite и Pro увеличен размер контекста с 8192 до 32768 токенов.
  • Расширены возможности по стилизации и форматированию ответов. Теперь модели активнее используют markdown-разметку: добавляют заголовки, списки, параграфы и блоки кода.

В таблице представлены основные характеристики и возможности новой версии моделей.

ХарактеристикиGigaChat LiteGigaChat Pro
Размер контекста в токенах32K32K
Поддержка функций
Генерация изображений
Обработка изображений

В таблице представлены результаты проверки моделей с помощью разных бенчмарков.

МетрикаGigaChat LiteGigaChat Pro
MMLU (5-shot)0.640.69
ruMMLU (5-shot)0.590.62
GSM8K (5-shot)0.610.77
MATH (4-shot)0.270.31
MT-Bench (average)7.217.7
Arena-Hard EN16.621.4
Arena-Hard RU20.228.2
Human Eval (0-shot)0.380.4
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.