13 минут на чтение

25 апреля 2024

10 марта 2025

LLM: что такое большие языковые модели и как они работают

Продукты из этой статьи:

Искусственный интеллект — широкое понятие всех идей и технологий, семейство подходов, которые умеют выполнять задачи человеческого мышления.

Нейросети — один из подвидов, подкатегория ИИ. Они вдохновлены принципами работы человеческого интеллекта и состоят из слоёв искусственных нейронов. Обучаются на больших объёмах данных, анализируют и обрабатывают массивы информации и выявляют закономерности. Умеют писать тексты и делать изображения.

Большие языковые модели (Large Language Models, LLM) — один из типов искусственного интеллекта, который «понимает», обрабатывает и генерирует человеческий язык. Такие возможности он приобретает благодаря глубокому машинному обучению. LLM обучают на огромных массивах данных — текстах, статьях на сайтах, книгах, чтобы модели могли разбираться во множестве тем и тонкостях языка.

В отличие от первых двух понятий, большие языковые модели обучаются преимущественно для работы с текстами, чтобы помогать человеку в создании полезного уникального контента.

Что такое LLM модель

LLMs / LLM модель (Large Language Model, большая языковая модель) — нейронная лингвистическая сеть, обученная на огромных корпусах данных для понимания и обработки текста. Искусственный интеллект умеет:

переводить тексты — к примеру, с английского на русский и наоборот;
писать тексты, статьи, доклады, посты в блог, описания товаров;
делать выжимки из материалов — докладов, научных работ, отчётов;
поддерживать диалог и отвечать на вопросы и конкретные требования пользователя.

GigaChat — генерация картинок,
текстов и многого другого

Попробовать в браузере

Встраивайте GigaChat API в свои проекты

50 000 токенов

Генерация текста GigaChat Pro

950 000 токенов

Генерация текста GigaChat Lite

1 поток

Одновременные запросы

Еще тарифы

Для каких задач сегодня применяются LLM

Большие языковые модели применяются для автоматизации и улучшения процессов в различных направлениях жизни: промышленности, бизнесе, искусстве, медицине. Расскажем подробнее, чем они могут помочь людям и что умеют делать.

Генерировать тексты и контент. Программы на базе больших языковых моделей анализируют стиль, смысл и содержание и создают контент, на который у человека ушло бы много времени и усилий.

Например, для digital-агентства генеративная модель GigaChat за три секунды может создать продающий контент любой сложности по указанным характеристикам. При этом описание товаров и услуг для сайта нейронная сеть сделает сразу с SEO-оптимизацией.

Делать проще взаимодействие с клиентами. На основе LLM создаются чат-боты, которые отвечают клиентам на вопросы о товаре или услуге, вычисляя намерения пользователя. Такие программы рассказывают о характеристиках и преимуществах продукта в режиме реального времени. С их помощью можно получить контакт потенциального покупателя и даже проводить продажи. Использование чат-ботов позволяет уменьшить затраты на обслуживание клиентов на 80%.

Выполнять функции виртуальных помощников. Виртуальные ассистенты на базе LLM обрабатывают запросы пользователя и помогают решать повседневные разнообразные задачи, например, организацию дел. Их главная сила — умение работать с расплывчатыми и нечёткими запросами.

Сокращать длинные тексты до резюме. Чат-боты на основе LLM вычленяют главное из текста и делают понятные выжимки. Людям, для которых это важно (научным работникам, менеджерам), не нужно перечитывать 100 страниц текста, чтобы понять суть. Им можно лишь поместить скрипт в чат-бота — и получить качественный материал в виде текста или таблицы.

Создавать интерактивные обучающие программы. Отдельного внимания заслуживает потенциал LLM в образовании: ИИ генерирует учебные материалы и системы, которые в реальном времени помогают студентам лучше усваивать предмет.

Помогать со здоровьем. В сфере здравоохранения продвинутые алгоритмы Large Language Models используются для создания виртуальных диагностов, которые помогают пациентам находить связные ответы на вопросы и следить за своим здоровьем. А докторам — проводить анализ данных из истории болезней людей и ставить предварительные диагнозы.

Переводить тексты с множества языков. При переводе программы LLM учитывают специфику текста, терминологию, стиль, интонацию, пунктуацию. Полученные тексты иногда превосходят те, над которыми работал профессиональный переводчик. А ещё — одна модель часто знает больше языков, чем один человек.

LLM могут автоматически исправлять ошибки и предлагать варианты улучшения текста. Это особенно полезно для авторов, редакторов и переводчиков, работающих с большими объёмами текстов.

Проводить расширенный интеллектуальный поиск. LLM эффективно обрабатывает информацию из интернета, используя смысловые запросы вместо просто ключевых слов.

Разновидности языковых моделей LLM

Известные языковые модели — GPT OpenAI (GPT-3.5 и GPT-4 в ChatGPT), PaLM и Gemini от Google (Bard), Copilot от Microsoft и другие.

Российский аналог — GigaChat. Он поддерживает более 100 языков, но фокусируется преимущественно на английском и русском. Точность ответа зависит от сложности задачи и качества пользовательских запросов (промптов).

GigaChat — генеративная нейросеть. Это значит, что она умеет создавать статьи и изображения. Генерация картинок и текста стала возможной благодаря ruGPT-3.5 с 29 млрд параметров, Kandinsky 3.0, ruCLIP и FRED-T5.

Уже сейчас нейросети умеют создавать видеоролики на несколько минут и писать музыку, а в будущем научатся обрабатывать жесты и даже распознавать геном человека.

В 2023 году GigaChat сдал ЕГЭ по обществознанию на 67 баллов, а в 2025 — сдал экзамен по специальности «Кардиология» в ВолгГМУ.

LLM: термины и понятия

Архитектура: это структура модели, которая определяет, как она обрабатывает и генерирует текст. Примеры архитектур — трансформеры (современный подход), RNN (устаревший метод).

Предобучение: начальная фаза, где модель обучается на больших наборах данных и решает общие задачи (например, предсказывает следующее слово), чтобы понять структуру языка.

Дообучение (fine-tuning): процесс дополнительного обучения модели на более узком наборе данных для выполнения конкретной задачи, например, классификации или составления списков.

Оценка эффективности: методы и метрики, используемые для оценки производительности работы модели. Например, перплексия измеряет, насколько хорошо модель предсказывает текст, а BLEU и ROUGE оценивают качество перевода или генерации текста.

Трансформеры: базовая архитектура LLM, которая с помощью механизма внимания эффективно обрабатывает длинные контексты, выделяя ключевую информацию.

Тренировка (обучение): процесс, в ходе которого модель обучается на большом объеме текстовых данных. Включает этапы предобучения и дообучения (fine-tuning).

Искусственный интеллект GigaChat

Создавайте приложения с искусственным интеллектом и автоматизируйте рутинные процессы

Принцип работы больших языковых моделей

Чтобы ИИ распознавал запрос и интент пользователя, а затем генерировал ответ, нужно обучить нейросеть с использованием Machine Learning, NLP Modeling и других.

Чтобы создать LLM, необходимо:

Собрать много качественных, общих и специфичных данных (поиск, сбор, очистка датасета и т. д.).
Выбрать архитектуру (Transformer, BERT — Bidirectional Encoder Representations from Transformers, GPT — Generative Pre-trained Transformer, T5).
Отточить процесс обучения языковой модели. Масштабировать систему, продумать отладку при сбоях (к примеру, для работы нужно более 1000 видеокарт, есть риск выхода из строя).
Усовершенствовать работу (CUDA-отладчик, библиотека NCCL, Garbage Collectors, фреймворк PyTorch FSDP).
Получить LLM (LL).

Как LLM генерирует связный текст

Принцип работы языковой модели прост — предсказывать следующее слово в предложении. Допустим, мы просканировали весь интернет и нашли все случаи, где встречается фраза «GigaChat используют для».

Дальше мы взяли все слова, которые следуют за строкой «GigaChat используют для» и вычислили, с какой вероятностью встречается каждое.

GigaChat используют для +	бизнеса	10%
	маркетинга	10%
	генерации	10%
	SEO	10%
	написания	10%
	создания	10%
	разработки	10%
	поиска	10%

В нашем случае искусственный интеллект, вероятно, добавит слово «бизнеса». Фраза будет звучать как «GigaChat используют для бизнеса». Искусственный интеллект может выбрать и другое продолжение ― всё зависит от настроек и сформулированного запроса.

Например, может появиться фраза «GigaChat используют для генерации». Дальше искусственный интеллект уже работает с ней: может добавить «картинок», и результат будет выглядеть как «GigaChat используют для генерации картинок».

Как LLM понимает смысл текста

Large Languages Models должны понимать смысл текста, чтобы давать естественный ответ. Поэтому их обучают на корпусах данных, а затем дообучают и настраивают.

Главные стадии обучения нейросети приведены в таблице ниже (на основе GigaChat).

Стадия	Предобучение (Pre-Training)	Alignment: Supervised- Finetuning (дообучение прошлой языковой модели)	Alignment: обучение с подкреплением
Данные	Книги и новости на русском и английском, публикации в СМИ и научных журналах, доклады, разговорная речь — чтобы получить чистые тексты нужно обработать петабайты исходных данных	Более 500 000 пар [инструкция, ответ]	100 000+ пар [инструкция, N отранжированных ответов LLM]
Для чего необходимо (цель)	Получить знания, изучить языки. На этапе предобучения развивают «ум» LLM-модели	Развить умение следования инструкциям, форматам, правильно использовать контекст диалога	Совершенствовать умение следовать инструкциям

Для создания и обучения GigaChat потребовалось 7.50 ПБ (петабайт) исходных данных — это как 50 Ленинских библиотек или вся мировая литература, увеличенная в 2,5 раза. Для подготовки нейросетевой языковой модели необходимы вычислительные мощности — тысячи GPU. Нужно столько же ресурсов, сколько уходит на электрообеспечение Лужников в течение четырёх месяцев.

Риски и особенности применения LLM

Ограничения использования искусственного интеллекта в бизнесе и других сферах можно условно разделить на три группы: качество генерации (AI-галлюцинации);

лимиты и квоты;
защита корпоративных и персональных данных.

Разработчики GigaChat позаботились о том, чтобы языковая модель была безопасной и удобной, но при этом внедрение и использование LLM было простым.

В частности, установлены тематические ограничения запросов. GigaChat может ответить: «Я не знаю». Например, когда его пытаются запутать или спровоцировать.

Качество генерации	Сложность работы с русским языком	Обучена на русском языке, учитывает национальный культурный код и особенности построения фраз лингвистически
	Основные кейсы	Возможности и настройки GigaChat
	Запутывание контекста генерации (омонимы/омографы, переключение морфологических веток)	Предобучение, дообучение, обучение с подкреплением. Пользователи оценивают ответы GigaChat: каждая оценка делает нейросеть умнее и точнее
	Недостоверность, генерация галлюцинаций	Нейросеть может уточнить запрос или попросить сформулировать его более корректно. Также искусственный интеллект может признаться, что не знает ответ (и тем самым сэкономит время пользователя)
	Потеря контекста	GigaChat умеет работать с контекстом разной структуры (например, можно передавать историю взаимодействия). Нейросеть является stateless-сервисом и не хранит историю взаимодействия
	Провокации, спорные этические вопросы, нецензурная лексика	Тематические ограничения запросов позволяют избегать спорных тем
Лимиты, квоты	Зарубежные сервисы сложно подключить и использовать	GigaChat — российское решение. Сервис доступен бесплатно. Бизнесу предлагают GigaChat API
Лимиты, квоты	Ограничение размера запроса и ответа	Промпт с контекстом и ответом может содержать в среднем до 2000 слов или примерно шесть страниц A4, набранных шрифтом с кеглем 14
Безопасность, защита пользовательских и корпоративных данных	Утечки данных, запреты на использование иностранных сервисов на рабочем месте	При разработке нейросети использованы банковские стандарты безопасности. По умолчанию пользовательские запросы и ответы не хранятся и не применяются для дообучения ИИ. Все данные шифруются и хранятся в конфиденциальной базе

Как оценить перспективы использования LLM в своём продукте

Сценарии внедрения искусственного интеллекта в бизнесе различны:

использование ответов ИИ с дальнейшими алгоритмами фильтрации и верификации;
подключение нейросети в качестве помощника (ассистента) для выполнения рутинных задач;
применение искусственного интеллекта для несложных бытовых задач (рассказать сказку, поддержать беседу).

Внедрение GigaChat позволяет автоматизировать часть бизнес-процессов:

подключить и настроить чат-бота для сайта или интернет-магазина, как это уже реализовали в SaluteBot;
создать программных роботов RPA (Robotic Process Automation) — GigaChat помогает настраивать сценарии автоматизации SaluteRPA;
транскрибировать аудиозаписи, сделать расшифровку/выжимку и подготовить текст для озвучивания — как это делает GigaChat в SaluteSpeech App.

Примеры крупных продуктов на базе LLM: сравнение моделей

Бизнесу доступны сервисы:

SymFormer — оптимальное решение для генерации музыки;
Kandinsky 3.0 — сервис создания картинок и видео;
SaluteSpeech — синтез и распознавание речи;
GigaCode — AI-ассистент разработчика.

Мультимодальность языковых моделей позволяет решать различные задачи. GigaChat можно попросить сгенерировать презентацию и нарисовать картинки к ней.

Эффективность и возможности GigaChat можно оценить в виртуальных ассистентах Салют в приложениях и на умных устройствах Сбера (SberBoom, SberBox, SberBox Top, Салют ТВ, SberBoom Mini и других).

Продукты из этой статьи:

GigaChat

GigaChat API

Решения с использованием ИИ

Оцените статью

Ещё по теме

GigaChat API

Big Data

Инструменты работы с большими массивами данных

GigaChat API

Искусственный интеллект в кибербезопасности

Что такое ИИ для кибербезопасности? Ставки на искусственный интеллект для защиты предприятий от киберугроз

GigaChat API

Создание своего искусственного интеллекта

Узнайте, как создать свой искусственный интеллект с нуля. Рассматриваем ключевые этапы разработки AI

GigaChat API

Применение искусственного интеллекта

В технологиях Сбера и сферы его использования

Что такое LLM модель
Для каких задач сегодня применяются LLM
Разновидности языковых моделей LLM
LLM: термины и понятия
Принцип работы больших языковых моделей
Как LLM генерирует связный текст
Как LLM понимает смысл текста
Риски и особенности применения LLM
Как оценить перспективы использования LLM в своём продукте
Примеры крупных продуктов на базе LLM: сравнение моделей

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.