ym88659208ym87991671
13 минут на чтение
10 марта 2025

LLM: что такое большие языковые модели и как они работают

Продукты из этой статьи:

Искусственный интеллект  широкое понятие всех идей и технологий, семейство подходов, которые умеют выполнять задачи человеческого мышления.

Нейросети  один из подвидов, подкатегория ИИ. Они вдохновлены принципами работы человеческого интеллекта и состоят из слоёв искусственных нейронов. Обучаются на больших объёмах данных, анализируют и обрабатывают массивы информации и выявляют закономерности. Умеют писать тексты и делать изображения.

Большие языковые модели (Large Language Models, LLM)  один из типов искусственного интеллекта, который «понимает», обрабатывает и генерирует человеческий язык. Такие возможности он приобретает благодаря глубокому машинному обучению. LLM обучают на огромных массивах данных  текстах, статьях на сайтах, книгах, чтобы модели могли разбираться во множестве тем и тонкостях языка.

В отличие от первых двух понятий, большие языковые модели обучаются преимущественно для работы с текстами, чтобы помогать человеку в создании полезного уникального контента.

Что такое LLM модель

LLMs / LLM модель (Large Language Model, большая языковая модель)  нейронная лингвистическая сеть, обученная на огромных корпусах данных для понимания и обработки текста. Искусственный интеллект умеет:

  • переводить тексты  к примеру, с английского на русский и наоборот;
  • писать тексты, статьи, доклады, посты в блог, описания товаров;
  • делать выжимки из материалов  докладов, научных работ, отчётов;
  • поддерживать диалог и отвечать на вопросы и конкретные требования пользователя.
GigaChat — генерация картинок,
текстов и многого другого
Попробовать в браузере
Встраивайте GigaChat API в свои проекты
50 000 токенов
Генерация текста GigaChat Pro
950 000 токенов
Генерация текста GigaChat Lite
1 поток
Одновременные запросы
Еще тарифы

Для каких задач сегодня применяются LLM

Большие языковые модели применяются для автоматизации и улучшения процессов в различных направлениях жизни: промышленности, бизнесе, искусстве, медицине. Расскажем подробнее, чем они могут помочь людям и что умеют делать.

Генерировать тексты и контент. Программы на базе больших языковых моделей анализируют стиль, смысл и содержание и создают контент, на который у человека ушло бы много времени и усилий.

Например, для digital-агентства генеративная модель GigaChat за три секунды может создать продающий контент любой сложности по указанным характеристикам. При этом описание товаров и услуг для сайта нейронная сеть сделает сразу с SEO-оптимизацией.

Делать проще взаимодействие с клиентами. На основе LLM создаются чат-боты, которые отвечают клиентам на вопросы о товаре или услуге, вычисляя намерения пользователя. Такие программы рассказывают о характеристиках и преимуществах продукта в режиме реального времени. С их помощью можно получить контакт потенциального покупателя и даже проводить продажи. Использование чат-ботов позволяет уменьшить затраты на обслуживание клиентов на 80%.

Выполнять функции виртуальных помощников. Виртуальные ассистенты на базе LLM обрабатывают запросы пользователя и помогают решать повседневные разнообразные задачи, например, организацию дел. Их главная сила  умение работать с расплывчатыми и нечёткими запросами.

Сокращать длинные тексты до резюме. Чат-боты на основе LLM вычленяют главное из текста и делают понятные выжимки. Людям, для которых это важно (научным работникам, менеджерам), не нужно перечитывать 100 страниц текста, чтобы понять суть. Им можно лишь поместить скрипт в чат-бота  и получить качественный материал в виде текста или таблицы.

Создавать интерактивные обучающие программы. Отдельного внимания заслуживает потенциал LLM в образовании: ИИ генерирует учебные материалы и системы, которые в реальном времени помогают студентам лучше усваивать предмет.

Помогать со здоровьем. В сфере здравоохранения продвинутые алгоритмы Large Language Models используются для создания виртуальных диагностов, которые помогают пациентам находить связные ответы на вопросы и следить за своим здоровьем. А докторам  проводить анализ данных из истории болезней людей и ставить предварительные диагнозы.

Переводить тексты с множества языков. При переводе программы LLM учитывают специфику текста, терминологию, стиль, интонацию, пунктуацию. Полученные тексты иногда превосходят те, над которыми работал профессиональный переводчик. А ещё  одна модель часто знает больше языков, чем один человек.

LLM могут автоматически исправлять ошибки и предлагать варианты улучшения текста. Это особенно полезно для авторов, редакторов и переводчиков, работающих с большими объёмами текстов.

Проводить расширенный интеллектуальный поиск. LLM эффективно обрабатывает информацию из интернета, используя смысловые запросы вместо просто ключевых слов.

Разновидности языковых моделей LLM

Известные языковые модели  GPT OpenAI (GPT-3.5 и GPT-4 в ChatGPT), PaLM и Gemini от Google (Bard), Copilot от Microsoft и другие.

Российский аналог  GigaChat. Он поддерживает более 100 языков, но фокусируется преимущественно на английском и русском. Точность ответа зависит от сложности задачи и качества пользовательских запросов (промптов).

GigaChat  генеративная нейросеть. Это значит, что она умеет создавать статьи и изображения. Генерация картинок и текста стала возможной благодаря ruGPT-3.5 с 29 млрд параметров, Kandinsky 3.0, ruCLIP и FRED-T5.

Уже сейчас нейросети умеют создавать видеоролики на несколько минут и писать музыку, а в будущем научатся обрабатывать жесты и даже распознавать геном человека.

В 2023 году GigaChat сдал ЕГЭ по обществознанию на 67 баллов, а в 2025  сдал экзамен по специальности «Кардиология» в ВолгГМУ.

LLM: термины и понятия

Архитектура: это структура модели, которая определяет, как она обрабатывает и генерирует текст. Примеры архитектур  трансформеры (современный подход), RNN (устаревший метод).

Предобучение: начальная фаза, где модель обучается на больших наборах данных и решает общие задачи (например, предсказывает следующее слово), чтобы понять структуру языка.

Дообучение (fine-tuning): процесс дополнительного обучения модели на более узком наборе данных для выполнения конкретной задачи, например, классификации или составления списков.

Оценка эффективности: методы и метрики, используемые для оценки производительности работы модели. Например, перплексия измеряет, насколько хорошо модель предсказывает текст, а BLEU и ROUGE оценивают качество перевода или генерации текста.

Трансформеры: базовая архитектура LLM, которая с помощью механизма внимания эффективно обрабатывает длинные контексты, выделяя ключевую информацию.

Тренировка (обучение): процесс, в ходе которого модель обучается на большом объеме текстовых данных. Включает этапы предобучения и дообучения (fine-tuning).

Искусственный интеллект GigaChat
Создавайте приложения с искусственным интеллектом и автоматизируйте рутинные процессы

Принцип работы больших языковых моделей

Чтобы ИИ распознавал запрос и интент пользователя, а затем генерировал ответ, нужно обучить нейросеть с использованием Machine Learning, NLP Modeling и других.

Чтобы создать LLM, необходимо:

  1. Собрать много качественных, общих и специфичных данных (поиск, сбор, очистка датасета и т. д.).
  2. Выбрать архитектуру (Transformer, BERT  Bidirectional Encoder Representations from Transformers, GPT  Generative Pre-trained Transformer, T5).
  3. Отточить процесс обучения языковой модели. Масштабировать систему, продумать отладку при сбоях (к примеру, для работы нужно более 1000 видеокарт, есть риск выхода из строя).
  4. Усовершенствовать работу (CUDA-отладчик, библиотека NCCL, Garbage Collectors, фреймворк PyTorch FSDP).
  5. Получить LLM (LL).
Машинное обучение

Как LLM генерирует связный текст

Принцип работы языковой модели прост  предсказывать следующее слово в предложении. Допустим, мы просканировали весь интернет и нашли все случаи, где встречается фраза «GigaChat используют для».

Дальше мы взяли все слова, которые следуют за строкой «GigaChat используют для» и вычислили, с какой вероятностью встречается каждое.


GigaChat используют для +бизнеса10%
маркетинга10%
генерации10%
SEO10%
написания10%
создания10%
разработки10%
поиска10%

В нашем случае искусственный интеллект, вероятно, добавит слово «бизнеса». Фраза будет звучать как «GigaChat используют для бизнеса». Искусственный интеллект может выбрать и другое продолжение ― всё зависит от настроек и сформулированного запроса.

Например, может появиться фраза «GigaChat используют для генерации». Дальше искусственный интеллект уже работает с ней: может добавить «картинок», и результат будет выглядеть как «GigaChat используют для генерации картинок».

Как LLM понимает смысл текста

Large Languages Models должны понимать смысл текста, чтобы давать естественный ответ. Поэтому их обучают на корпусах данных, а затем дообучают и настраивают.

Главные стадии обучения нейросети приведены в таблице ниже (на основе GigaChat).


СтадияПредобучение (Pre-Training)Alignment: Supervised- Finetuning (дообучение прошлой языковой модели)Alignment: обучение с подкреплением
ДанныеКниги и новости на русском и английском, публикации в СМИ и научных журналах, доклады, разговорная речь — чтобы получить чистые тексты нужно обработать петабайты исходных данныхБолее 500 000 пар [инструкция, ответ]100 000+ пар [инструкция, N отранжированных ответов LLM]
Для чего необходимо (цель)Получить знания, изучить языки. На этапе предобучения развивают «ум» LLM-моделиРазвить умение следования инструкциям, форматам, правильно использовать контекст диалогаСовершенствовать умение следовать инструкциям

Для создания и обучения GigaChat потребовалось 7.50 ПБ (петабайт) исходных данных  это как 50 Ленинских библиотек или вся мировая литература, увеличенная в 2,5 раза. Для подготовки нейросетевой языковой модели необходимы вычислительные мощности  тысячи GPU. Нужно столько же ресурсов, сколько уходит на электрообеспечение Лужников в течение четырёх месяцев.

Искусственный интеллект

Риски и особенности применения LLM

Ограничения использования искусственного интеллекта в бизнесе и других сферах можно условно разделить на три группы: качество генерации (AI-галлюцинации);

  • лимиты и квоты;
  • защита корпоративных и персональных данных.

Разработчики GigaChat позаботились о том, чтобы языковая модель была безопасной и удобной, но при этом внедрение и использование LLM было простым.

В частности, установлены тематические ограничения запросов. GigaChat может ответить: «Я не знаю». Например, когда его пытаются запутать или спровоцировать.


Основные кейсыВозможности и настройки GigaChat
Качество генерацииСложность работы с русским языкомОбучена на русском языке, учитывает национальный культурный код и особенности построения фраз лингвистически
Запутывание контекста генерации (омонимы/омографы, переключение морфологических веток)Предобучение, дообучение, обучение с подкреплением. Пользователи оценивают ответы GigaChat: каждая оценка делает нейросеть умнее и точнее
Недостоверность, генерация галлюцинацийНейросеть может уточнить запрос или попросить сформулировать его более корректно. Также искусственный интеллект может признаться, что не знает ответ (и тем самым сэкономит время пользователя)
Потеря контекстаGigaChat умеет работать с контекстом разной структуры (например, можно передавать историю взаимодействия). Нейросеть является stateless-сервисом и не хранит историю взаимодействия
Провокации, спорные этические вопросы, нецензурная лексикаТематические ограничения запросов позволяют избегать спорных тем
Лимиты, квотыЗарубежные сервисы сложно подключить и использоватьGigaChat — российское решение. Сервис доступен бесплатно. Бизнесу предлагают GigaChat API
Ограничение размера запроса и ответаПромпт с контекстом и ответом может содержать в среднем до 2000 слов или примерно шесть страниц A4, набранных шрифтом с кеглем 14
Безопасность, защита пользовательских и корпоративных данныхУтечки данных, запреты на использование иностранных сервисов на рабочем местеПри разработке нейросети использованы банковские стандарты безопасности. По умолчанию пользовательские запросы и ответы не хранятся и не применяются для дообучения ИИ. Все данные шифруются и хранятся в конфиденциальной базе

Как оценить перспективы использования LLM в своём продукте

Сценарии внедрения искусственного интеллекта в бизнесе различны:

  • использование ответов ИИ с дальнейшими алгоритмами фильтрации и верификации;
  • подключение нейросети в качестве помощника (ассистента) для выполнения рутинных задач;
  • применение искусственного интеллекта для несложных бытовых задач (рассказать сказку, поддержать беседу).

Внедрение GigaChat позволяет автоматизировать часть бизнес-процессов:

  • подключить и настроить чат-бота для сайта или интернет-магазина, как это уже реализовали в SaluteBot;
  • создать программных роботов RPA (Robotic Process Automation)  GigaChat помогает настраивать сценарии автоматизации SaluteRPA;
  • транскрибировать аудиозаписи, сделать расшифровку/выжимку и подготовить текст для озвучивания  как это делает GigaChat в SaluteSpeech App.
Внедрение ИИ

Примеры крупных продуктов на базе LLM: сравнение моделей

Бизнесу доступны сервисы:

  • SymFormer  оптимальное решение для генерации музыки;
  • Kandinsky 3.0  сервис создания картинок и видео;
  • SaluteSpeech  синтез и распознавание речи;
  • GigaCode  AI-ассистент разработчика.

Мультимодальность языковых моделей позволяет решать различные задачи. GigaChat можно попросить сгенерировать презентацию и нарисовать картинки к ней.

Эффективность и возможности GigaChat можно оценить в виртуальных ассистентах Салют в приложениях и на умных устройствах Сбера (SberBoom, SberBox, SberBox Top, Салют ТВ, SberBoom Mini и других).

Продукты из этой статьи:

GigaChat API
Решения с использованием ИИ
Ещё по теме
GigaChat API
Big Data

Инструменты работы с большими массивами данных
GigaChat API
Искусственный интеллект в кибербезопасности

Что такое ИИ для кибербезопасности? Ставки на искусственный интеллект для защиты предприятий от киберугроз
GigaChat API
Создание своего искусственного интеллекта

Узнайте, как создать свой искусственный интеллект с нуля. Рассматриваем ключевые этапы разработки AI
GigaChat API
Применение искусственного интеллекта

В технологиях Сбера и сферы его использования
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.