Обновления моделей
В этом разделе вы найдете информацию о качестве работы и возможностях новых версий моделей GigaChat.
Качество работы каждой новой версии модели проверяется с помощью нескольких бенчмарков:
- MMLU (Multimodal Language Understanding) и его русскоязычная версия ruMMLU. Метрика MMLU оценивает общие способности моделей понимать и отвечать на вопросы из различных областей знаний.
- GSM8K — метрика, которая позволяет оценить знания LLM на уровне школьной математики.
- MATH — метрика, которая представляет более широкий набор задач, в том числе по алгебре, геометрии и даже математическому анализу – вплоть до университетского уровня.
- MT-Bench — метрика из 160 вопросов для оценки генеративных способностей LLM, включая фактологию, способность следовать инструкциям, поддерживать диалог с контекстом, использовать форматирование и решать иные задачи. В качестве судьи используется сильная LLM (gpt-4o), которая оценивает качество ответов по шкале от 0 до 10.
- Arena-Hard - бенчмарк также оценивающий генеративные способности LLM в диалогах. Содержит 500 вопросов в основном по техническим тематикам, включая математику и программирование. Особенностью оценки является ELO-рейтинг, который формируется на основе сравнения ответа оцениваемой моделей с базовой (gpt-4). Судья (gpt-4o) в таком случае не проставляет оценку от 0 до 10, а выбирает ответ какой модели лучше - базовой или оцениваемой. На основе таких сравнений рассчитывается итоговый рейтинг оцениваемой модели.
- Human Eval — метрика используется для оценки способности моделей производить результаты, которые соответствуют человеческому восприятию.
Версия: 26.20 Дата релиза: 31.10.2024 Статус: Доступна
В версии 26.20 добавлена новая модель GigaChat Max.
Для запросов к модели используйте адрес https://gigachat-preview.devices.sberbank.ru/api/v1/
, а в поле model
передавайте GigaChat-Max-preview
.
Для работы с моделью нужны оплаченные токены.
В таблице представлены основные характеристики и возможности новой версии моделей.
Характеристики | GigaChat Lite | GigaChat Pro | GigaChat Max |
---|---|---|---|
Размер контекста в токенах | 32K | 32K | 32K |
Поддержка функций | ✅ | ✅ | ✅ |
Генерация изображений | ✅ | ✅ | ✅ |
Обработка изображений | ❌ | ✅ | ✅ |
В таблице представлены результаты проверки моделей с помощью разных бенчмарков.
Метрика | GigaChat Lite | GigaChat Pro | GigaChat Max |
---|---|---|---|
MMLU (5-shot) | 0.65 | 0.69 | 0.8 |
ruMMLU (5-shot) | 0.6 | 0.65 | 0.75 |
GSM8K (5-shot) | 0.66 | 0.78 | 0.93 |
MATH (4-shot) | 0.34 | 0.45 | 0.53 |
MT-Bench (average) (с фильтром безопасности) | 7.1 | 7.45 | 8.2 |
MT-Bench (average) (без фильтра безопасности) | 6.93 | 7.59 | 8.3 |
Arena-Hard EN (с фильтром безопасности) | 50.7 | ||
Arena-Hard EN (без фильтра безопасности) | 11.0 | 18.0 | 51.9 |
Arena-Hard RU (с фильтром безопасности) | 70.7 | ||
Arena-Hard RU (без фильтра безопасности) | 25.9 | 45.5 | 73.3 |
Human Eval (0-shot) | 0.37 | 0.44 | 0.64 |
Версия: 26.15 Дата релиза: 01.10.2024 Статус: Доступна
В версии 26.15:
- Теперь в запросах к модели GigaChat Pro можно передавать изображения.
- В моделях GigaChat Lite и Pro увеличен размер контекста с 8192 до 32768 токенов.
- Расширены возможности по стилизации и форматированию ответов. Теперь модели активнее используют markdown-разметку: добавляют заголовки, списки, параграфы и блоки кода.
В таблице представлены основные характеристики и возможности новой версии моделей.
Характеристики | GigaChat Lite | GigaChat Pro |
---|---|---|
Размер контекста в токенах | 32K | 32K |
Поддержка функций | ✅ | ✅ |
Генерация изображений | ✅ | ✅ |
Обработка изображений | ❌ | ✅ |
В таблице представлены результаты проверки моделей с помощью разных бенчмарков.
Метрика | GigaChat Lite | GigaChat Pro |
---|---|---|
MMLU (5-shot) | 0.64 | 0.69 |
ruMMLU (5-shot) | 0.59 | 0.62 |
GSM8K (5-shot) | 0.61 | 0.77 |
MATH (4-shot) | 0.27 | 0.31 |
MT-Bench (average) | 7.21 | 7.7 |
Arena-Hard EN | 16.6 | 21.4 |
Arena-Hard RU | 20.2 | 28.2 |
Human Eval (0-shot) | 0.38 | 0.4 |