ym88659208ym87991671
27 октября 2025
27 октября 2025

Что такое RAG: как работает генерация с дополненной выборкой в нейросетях​

RAG дополняет ответы языковых моделей найденными фрагментами из внешних источников, благодаря чему ответы становятся точнее, проверяемее и менее склонными к «галлюцинациям».

Для бизнеса это даёт быструю актуализацию знаний без переобучения модели, цитирование источников и управляемую стоимость за счёт адресного поиска нужных фрагментов.​

GigaChat — генерация картинок,
текстов и многого другого
Попробовать в браузере
Встраивайте GigaChat API в свои проекты
50 000 токенов
Генерация текста GigaChat Pro
950 000 токенов
Генерация текста GigaChat Lite
1 поток
Одновременные запросы
Еще тарифы

Что такое RAG простыми словами

RAG  это связка из двух компонентов: поискового ретривера, который находит релевантные документы, и генератора, который формирует ответ на основе вопроса и извлечённых фрагментов. Процесс можно описать как «сначала найти нужные тексты, затем использовать их при ответе», что снижает ошибки и позволяет ссылаться на источники.​

Поисковый ретривер  это компонент, который по текстовому запросу быстро находит и отбирает самые релевантные фрагменты из базы знаний или индекса, чтобы затем на их основе можно было сформировать точный ответ или показать документы

Как работает RAG по шагам​

  • Индексация: исходные материалы нарезаются на небольшие фрагменты, преобразуются в векторные представления и сохраняются в индекс для быстрого поиска.​
  • Извлечение: по запросу выбираются топ‑фрагменты через векторный, ключевой (BM25) или гибридный поиск с возможным переранжированием.​
  • Подготовка промпта: в промпт аккуратно кладутся вопрос и короткие цитируемые фрагменты в логичном порядке и с ограничением объёма.​
  • Генерация: LLM строит ответ, опираясь на извлечённый контекст, а не только на «память» своих параметров.​
  • Проверка и ссылки: к ответу прикладываются источники, при необходимости запускается дополнительная верификация фактов.​

Архитектура и компоненты​

  • Retriever и Generator: первый отвечает за поиск документов под запрос, второй  за связный ответ с опорой на найденные фрагменты.​
  • Dense, sparse, hybrid: плотные эмбеддинги ловят смысл, BM25  точные совпадения по словам, а гибрид объединяет оба сигнала для стабильной релевантности.​
  • Хранилище векторов: эмбеддинги документов и запросов размещаются в индексах, поддерживающих быстрый поиск ближайших соседей для топ‑результатов.​

Векторный и гибридный поиск​

  • Когда нужен BM25: для запросов с названиями, артикулом, точным термином и требованием жёсткого текстового совпадения.​
  • Когда нужны векторы: для разговорных формулировок, перефразов и неоднозначных вопросов, где важнее смысл, а не точная форма слова.​
  • Почему гибрид лучше: комбинирование семантики и лексики (через объединение результатов и взвешивание) даёт прирост точности и устойчивости.​

Чанкование и токенизация​

  • Токенизация: исходный текст разбивается на минимальные единицы, что определяет счётчик контекста и влияет на длину фрагментов.​
  • Чанкование: документы нарезаются на небольшие связные блоки, чтобы облегчить поиск и сократить шум в промпте.​
  • Практические советы: слишком крупные фрагменты засоряют ответ лишним текстом, слишком мелкие рвут факты * оптимум подбирается экспериментально на метриках извлечения и качества ответа.​

Преимущества и ограничения​

  • Преимущества: актуальность без дообучения, проверяемость через ссылки, меньше «галлюцинаций» и понятная логика ответа.​
  • Издержки: задержка за счёт поиска и ранжирования, стоимость расчёта эмбеддингов и хранения индексов, зависимость от качества базы знаний.​
  • Критический фактор: качество ретривера и подготовленных данных напрямую определяет итоговое качество ответа.​

Варианты моделей RAG

  • RAG‑Sequence: для ответа берётся лучший найденный документ или небольшой набор документов, и весь ответ строится с опорой именно на них.​
  • RAG‑Token: разные фрагменты ответа могут опираться на разные документы, что позволяет точнее цитировать и комбинировать источники внутри одного ответа.

Сравнение подходов​

ПодходСутьПлюсыМинусыКогда выбирать
RAG Генерация с опорой на внешние источники через ретривер и генератор Проверяемость, актуальность без дообучения, меньше ошибок Латентность поиска, настройка индекса и ретривера Нужны факты, ссылки и свежесть знаний
Fine‑tuning Дообучение модели на доменных данных Глубокая внутренняя осведомлённость по домену Дорого обновлять, риск закрепить ошибки Небольшие наборы документов и быстрые прототипы
Семантический поиск Возврат релевантных документов без генерации Быстро и дёшево для поиска Нет связного ответа и «склейки» фактов Когда пользователю нужны сами документы

Практические кейсы для российского бизнеса​

  • Поддержка: чат‑помощник с цитируемыми ответами по регламентам и базе знаний снижает нагрузку на линию и ускоряет первую реакцию.​
  • Внутренние справочники: доступ к актуальным политикам, процедурам и инструкциям по терминам, сущностям и разговорным формулировкам.​
  • E‑commerce консультант: гибридный поиск + RAG объясняют выбор товара и подкрепляют ответ карточками и отзывами.​
  • Отчёты и факт‑чек: выжимки по документам с обязательными ссылками для быстрой верификации.​

Фреймворки и стек​

  • Оркестрация: на практике используют готовые компоненты для сборки пайплайна «индексация извлечение промпт генерация верификация», чтобы быстрее перейти к пилоту.​
  • Поиск: гибридный стек BM25 плюс векторный поиск (и переранжирование) часто даёт лучший баланс полноты и точности для RAG.​
  • Минимальная сборка: подготовка данных, чанкование и эмбеддинги, индексация, гибридное извлечение, сборка промпта, генерация ответа и прикрепление источников.​

Advanced/Modular RAG​

  • Pre‑/post‑retrieval: перефразирование запроса до поиска, объединение результатов и переранжирование кросс‑энкодером повышают качество топ‑фрагментов.​
  • HyDE: генерация «гипотетического» документа и поиск по его представлению помогает на сложных и нулешотных запросах, включая мультиязычные сценарии.​
  • Модульность: этапы гибко включаются под задачу и бюджет  от простого пайплайна к расширенным режимам с самопроверкой и дополнительным ранжированием.​

Итоги и next steps​

  • Когда выбирать RAG: если важны проверяемость ответов, частые обновления знаний и устойчивость к разговорным запросам с неоднозначностями.​
  • Как оценивать: сначала мерить качество извлечения (например, полноту и ранговые метрики), затем точность финального ответа и корректность ссылок.​
  • Дорожная карта: начать с гибридного поиска и базового пайплайна, затем добавлять переранжирование и HyDE, валидируя прирост метрик на пилотных сценариях.​

FAQ

Ещё по теме
Развитие бизнеса
CRM-стратегия

Пошаговая инструкция по разработке CRM-стратегии
GigaChat API
AI-агенты: что это

Узнайте, как разработка и внедрение AI-агентов помогает повысить эффективность компаний через автоматизацию ключевых задач и улучшение клиентского сервиса
GigaChat API
Нейросети для документов

Как использовать нейросети для автоматизации создания, анализа и редактирования документов? Узнайте о задачах, инструментах и лучших решениях на рынке
GigaChat API
ИИ для работы с таблицами

Как ИИ автоматизирует рутину: создание электронных таблиц, сложные формулы, анализ данных. Научитесь использовать нейросети для работы с таблицами, ускорьте обработку данных и принимайте решения быстрее
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.