ym88659208ym87991671
13 минут на чтение
9 июля 2024

LLM модель

Продукты из этой статьи:

LLMs / LLM модель (Large Language Model, большая языковая модель)  нейронная лингвистическая сеть, обученная на огромных корпусах данных для понимания и обработки текста. Искусственный интеллект умеет:

  • переводить тексты  к примеру, с английского на русский и наоборот;
  • генерировать контент  писать тексты, статьи, доклады, посты в блог, описания товаров;
  • делать выжимки из материалов  докладов, научных работ, отчётов;
  • поддерживать диалог и отвечать на вопросы пользователя.
GigaChat — генерация картинок,
текстов и многого другого
Попробовать в браузере
Встраивайте GigaChat API в свои проекты
50 000 токенов
Генерация текста GigaChat Pro
950 000 токенов
Генерация текста GigaChat Lite
1 поток
Одновременные запросы
Еще тарифы

Известные языковые модели  GPT OpenAI (GPT-3.5 и GPT-4 в ChatGPT), PaLM и Gemini от Google (Bard), Copilot от Microsoft и другие.

Российский аналог  GigaChat. Он поддерживает более 100 языков, но фокусируется преимущественно на английском и русском. Точность ответа зависит от сложности задачи и качества пользовательских запросов (промптов).

GigaChat  генеративная нейросеть. Это значит, что она умеет создавать статьи и изображения. Генерация картинок и текста стала возможной благодаря ruGPT-3.5 с 29 млрд параметров, Kandinsky 3.0, ruCLIP и FRED-T5.

В будущем нейросети смогут:

  • создавать длинные видеоролики;
  • писать музыку;
  • обрабатывать жесты;
  • генерировать 3D-модели и даже распознавать геном человека.

Для сравнения используются метрики:

  • Side by Side  GigaChat по качеству наравне с мировым бенчмарком GPT-3.5;
  • Massive Multitask Language Understanding Benchmark (способность решать различные задачки)  по этому параметру GigaChat превосходит LLaMA с 33 млрд параметров и некоторые другие.

GigaChat сдал на 67 баллов ЕГЭ по обществознанию. Этого достаточно для поступления в ВШЭ.

Искусственный интеллект GigaChat
Создавайте приложения с искусственным интеллектом и автоматизируйте рутинные процессы

Принцип работы больших языковых моделей

Чтобы ИИ распознавал запрос и интент пользователя, а затем генерировал ответ, нужно обучить нейросеть с использованием Machine Learning, NLP Modeling и других.

Чтобы создать LLM, необходимо:

  1. Собрать много качественных данных (поиск, сбор, очистка датасета и т. д.).
  2. Выбрать архитектуру (Transformer, BERT  Bidirectional Encoder Representations from Transformers, GPT  Generative Pre-trained Transformer, T5).
  3. Отточить процесс обучения языковой модели. Масштабировать систему, продумать отладку при сбоях (к примеру, для работы нужно более 1000 видеокарт, есть риск выхода из строя).
  4. Усовершенствовать работу (CUDA-отладчик, библиотека NCCL, Garbage Collectors, фреймворк PyTorch FSDP).
  5. Получить LLM (LL).
Машинное обучение

Как LLM генерирует связный текст

Принцип работы языковой модели прост  предсказывать следующее слово в предложении. Допустим, мы просканировали весь интернет и нашли все случаи, где встречается фраза «GigaChat используют для».

Дальше мы взяли все слова, которые следуют за строкой «GigaChat используют для» и вычислили, с какой вероятностью встречается каждое.


GigaChat используют для +бизнеса10%
маркетинга10%
генерации10%
SEO10%
написания10%
создания10%
разработки10%
поиска10%

В нашем случае искусственный интеллект, вероятно, добавит слово «бизнеса». Фраза будет звучать как «GigaChat используют для бизнеса». Искусственный интеллект может выбрать и другое продолжение ― всё зависит от настроек и сформулированного запроса.

Например, может появиться фраза «GigaChat используют для генерации». Дальше искусственный интеллект уже работает с ней: может добавить «картинок», и результат будет выглядеть как «GigaChat используют для генерации картинок».

Как LLM понимает смысл текста

Large Languages Models должны понимать смысл текста, чтобы давать естественный ответ. Поэтому их обучают на корпусах данных, а затем дообучают и настраивают.

Главные стадии обучения нейросети приведены в таблице ниже (на основе GigaChat).


СтадияПредобучение (Pre-Training)Alignment: Supervised- Finetuning (дообучение прошлой языковой модели)Alignment: обучение с подкреплением
ДанныеКниги и новости на русском и английском, публикации в СМИ и научных журналах, доклады, разговорная речь — чтобы получить чистые тексты нужно обработать петабайты исходных данныхБолее 500 000 пар [инструкция, ответ]100 000+ пар [инструкция, N отранжированных ответов LLM]
Для чего необходимо (цель)Получить знания, изучить языки. На этапе предобучения развивают «ум» LLM-моделиРазвить умение следования инструкциям, форматам, правильно использовать контекст диалогаСовершенствовать умение следовать инструкциям

Для создания и обучения GigaChat потребовалось 7.50 Пт исходных данных  это как 50 Ленинских библиотек или вся мировая литература, увеличенная в 2,5 раза. Для подготовки нейросетевой языковой модели необходимы вычислительные мощности  тысячи GPU. Нужно столько же ресурсов, сколько уходит на электрообеспечение Лужников в течение четырёх месяцев.

Искусственный интеллект

Риски и особенности применения LLM

Ограничения использования искусственного интеллекта в бизнесе и других сферах можно условно разделить на три группы:

  • качество генерации (AI-галлюцинации);
  • лимиты и квоты;
  • защита корпоративных и персональных данных.

Разработчики GigaChat позаботились о том, чтобы языковая модель была безопасной и удобной, но при этом использование и внедрение искусственного интеллекта было простым.

В частности, установлены тематические ограничения запросов. GigaChat может ответить: «Я не знаю». Например, когда его пытаются запутать или спровоцировать.


Основные кейсыВозможности и настройки GigaChat
Качество генерацииСложность работы с русским языкомОбучена на русском языке, учитывает национальный культурный код и особенности построения фраз лингвистически
Запутывание контекста генерации (омонимы/омографы, переключение морфологических веток)Предобучение, дообучение, обучение с подкреплением. Пользователи оценивают ответы GigaChat: каждая оценка делает нейросеть умнее и точнее
Недостоверность, генерация галлюцинацийНейросеть может уточнить запрос или попросить сформулировать его более корректно. Также искусственный интеллект может признаться, что не знает ответ (и тем самым сэкономит время пользователя)
Потеря контекстаGigaChat умеет работать с контекстом разной структуры (например, можно передавать историю взаимодействия). Нейросеть является stateless-сервисом и не хранит историю взаимодействия
Провокации, спорные этические вопросы, нецензурная лексикаТематические ограничения запросов позволяют избегать спорных тем
Лимиты, квотыЗарубежные сервисы сложно подключить и использоватьGigaChat — российское решение. Сервис доступен бесплатно. Бизнесу предлагают GigaChat API
Ограничение размера запроса и ответаПромпт с контекстом и ответом может содержать в среднем до 2000 слов или примерно шесть страниц A4, набранных шрифтом с кеглем 14
Безопасность, защита пользовательских и корпоративных данныхУтечки данных, запреты на использование иностранных сервисов на рабочем местеПри разработке нейросети использованы банковские стандарты безопасности. По умолчанию пользовательские запросы и ответы не хранятся и не применяются для дообучения ИИ. Все данные шифруются и хранятся в конфиденциальной базе

Как оценить перспективы использования LLM в своём продукте

Сценарии внедрения искусственного интеллекта в бизнесе различны:

  • использование ответов ИИ с дальнейшими алгоритмами фильтрации и верификации;
  • подключение нейросети в качестве помощника (ассистента) для выполнения рутинных задач;
  • применение искусственного интеллекта для несложных бытовых задач (рассказать сказку, поддержать беседу).

Внедрение GigaChat позволяет автоматизировать часть бизнес-процессов:

  • подключить и настроить чат-бота для сайта или интернет-магазина, как это уже реализовали в SaluteBot;
  • создать программных роботов RPA (Robotic Process Automation)  GigaChat помогает настраивать сценарии автоматизации SaluteRPA;
  • транскрибировать аудиозаписи, сделать расшифровку/выжимку и подготовить текст для озвучивания  как это делает GigaChat в SaluteSpeech App.
Внедрение ИИ

Примеры крупных продуктов на базе LLM

Бизнесу доступны сервисы:

  • SymFormer  решение для генерации музыки;
  • Kandinsky 3.0  сервис создания картинок и видео;
  • SaluteSpeech  синтез и распознавание речи;
  • GigaCode  AI-ассистент разработчика.

Мультимодальность языковых моделей позволяет решать различные задачи. GigaChat можно попросить сгенерировать презентацию и нарисовать картинки к ней.

Возможности GigaChat можно оценить в виртуальных ассистентах Салют в приложениях и на умных устройствах Сбера (SberBoom, SberBox, SberBox Top, Салют ТВ, SberBoom Mini и других).

Продолжение серии про генеративный AI

Бизнес может подключить GigaChat API и создать собственные сервисы с использованием искусственного интеллекта. Например, чат-ботов, SaaS по генерации текстов и картинок, решения для речевой аналитики.

Также можно подключить готовые решения Сбера, в которых внедрён GigaChat.

Продукты из этой статьи:

GigaChat API
Решения с использованием ИИ
\
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.