Обновления моделей
Обновлено 18 октября 2024
В этом разделе вы найдете информацию о качестве работы и возможностях новых версий моделей GigaChat.
Качество работы каждой новой версии модели проверяется с помощью нескольких бенчмарков:
- MMLU (Multimodal Language Understanding) и его русскоязычная версия ruMMLU. Метрика MMLU оценивает общие способности моделей понимать и отвечать на вопросы из различных областей знаний.
- GSM8K — метрика, которая позволяет оценить знания LLM на уровне школьной математики.
- MATH — метрика, которая представляет более широкий набор задач, в том числе по алгебре, геометрии и даже математическому анализу – вплоть до университетского уровня.
- MT-Bench — метрика из 160 вопросов для оценки генеративных способностей LLM, включая фактологию, способность следовать инструкциям, поддерживать диалог с контекстом, использовать форматирование и решать иные задачи. В качестве судьи используется сильная LLM (gpt-4o), которая оценивает качество ответов по шкале от 0 до 10.
- Arena-Hard - бенчмарк также оценивающий генеративные способности LLM в диалогах. Содержит 500 вопросов в основном по техническим тематикам, включая математику и программирование. Особенностью оценки является ELO-рейтинг, который формируется на основе сравнения ответа оцениваемой моделей с базовой (gpt-4). Судья (gpt-4o) в таком случае не проставляет оценку от 0 до 10, а выбирает ответ какой модели лучше - базовой или оцениваемой. На основе таких сравнений рассчитывается итоговый рейтинг оцениваемой модели.
- Human Eval — метрика используется для оценки способности моделей производить результаты, которые соответствуют человеческому восприятию.
Версия: 26.15 Дата релиза: 01.10.2024 Статус: Доступна
В версии 26.15:
- Теперь в запросах к модели GigaChat Pro можно передавать изображения.
- В моделях GigaChat Lite и Pro увеличен размер контекста с 8192 до 32768 токенов.
- Расширены возможности по стилизации и форматированию ответов. Теперь модели активнее используют markdown-разметку: добавляют заголовки, списки, параграфы и блоки кода.
В таблице представлены основные характеристики и возможности новой версии моделей.
Характеристики | GigaChat Lite | GigaChat Pro |
---|---|---|
Размер контекста в токенах | 32K | 32K |
Поддержка функций | ✅ | ✅ |
Генерация изображений | ✅ | ✅ |
Обработка изображений | ❌ | ✅ |
В таблице представлены результаты проверки моделей с помощью разных бенчмарков.
Метрика | GigaChat Lite | GigaChat Pro |
---|---|---|
MMLU (5-shot) | 0.64 | 0.69 |
ruMMLU (5-shot) | 0.59 | 0.62 |
GSM8K (5-shot) | 0.65 | 0.77 |
MATH (4-shot) | 0.27 | 0.31 |
MT-Bench (average) | 7.21 | 7.7 |
Arena-Hard EN | 16.6 | 21.4 |
Arena-Hard RU | 20.2 | 28.2 |
Human Eval (0-shot) | 0.38 | 0.4 |