ym88659208ym87991671
Обновления моделей | Документация для разработчиков

Обновления моделей

Обновлено 18 октября 2024

В этом разделе вы найдете информацию о качестве работы и возможностях новых версий моделей GigaChat.

Качество работы каждой новой версии модели проверяется с помощью нескольких бенчмарков:

  • MMLU (Multimodal Language Understanding) и его русскоязычная версия ruMMLU. Метрика MMLU оценивает общие способности моделей понимать и отвечать на вопросы из различных областей знаний.
  • GSM8K — метрика, которая позволяет оценить знания LLM на уровне школьной математики.
  • MATH — метрика, которая представляет более широкий набор задач, в том числе по алгебре, геометрии и даже математическому анализу – вплоть до университетского уровня.
  • MT-Bench — метрика из 160 вопросов для оценки генеративных способностей LLM, включая фактологию, способность следовать инструкциям, поддерживать диалог с контекстом, использовать форматирование и решать иные задачи. В качестве судьи используется сильная LLM (gpt-4o), которая оценивает качество ответов по шкале от 0 до 10.
  • Arena-Hard - бенчмарк также оценивающий генеративные способности LLM в диалогах. Содержит 500 вопросов в основном по техническим тематикам, включая математику и программирование. Особенностью оценки является ELO-рейтинг, который формируется на основе сравнения ответа оцениваемой моделей с базовой (gpt-4). Судья (gpt-4o) в таком случае не проставляет оценку от 0 до 10, а выбирает ответ какой модели лучше - базовой или оцениваемой. На основе таких сравнений рассчитывается итоговый рейтинг оцениваемой модели.
  • Human Eval — метрика используется для оценки способности моделей производить результаты, которые соответствуют человеческому восприятию.

Версия: 26.15 Дата релиза: 01.10.2024 Статус: Доступна

В версии 26.15:

  • Теперь в запросах к модели GigaChat Pro можно передавать изображения.
  • В моделях GigaChat Lite и Pro увеличен размер контекста с 8192 до 32768 токенов.
  • Расширены возможности по стилизации и форматированию ответов. Теперь модели активнее используют markdown-разметку: добавляют заголовки, списки, параграфы и блоки кода.

В таблице представлены основные характеристики и возможности новой версии моделей.

ХарактеристикиGigaChat LiteGigaChat Pro
Размер контекста в токенах32K32K
Поддержка функций
Генерация изображений
Обработка изображений

В таблице представлены результаты проверки моделей с помощью разных бенчмарков.

МетрикаGigaChat LiteGigaChat Pro
MMLU (5-shot)0.640.69
ruMMLU (5-shot)0.590.62
GSM8K (5-shot)0.650.77
MATH (4-shot)0.270.31
MT-Bench (average)7.217.7
Arena-Hard EN16.621.4
Arena-Hard RU20.228.2
Human Eval (0-shot)0.380.4
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.