ym88659208ym87991671
Создаем чат-бот на базе документов (RAG) | Документация для разработчиков

Создаем чат-бот на базе документов (RAG)

Обновлено 17 декабря 2024

Теперь бизнес может загрузить в SaluteBot неограниченное количество документов в формате PDF объемом до 300 тысяч cлов, в том числе: политику компании, информацию по продуктам и услугам, часто задаваемые вопросы (FAQ), презентации и другие. На базе загруженной информации формируется уникальная «база данных», позволяющая ускорить процесс создания персонализированного бота, способного обрабатывать до 85% обращений клиентов. Технология RAG позволяет находить релевантный запросу пользователя фрагмент в загруженных документах, а бот уточняет запрос и адаптирует информацию из базы в удобный для восприятия формат.

Вы можете научить чат-бот использовать для работы базу готовых документов и не заниматься разработкой описания интентов и ответов на них самостоятельно.

Для создания базы знаний чат-бота загрузите нужные документы в формате PDF. GigaChat в ходе выполнения сценария классифицирует вопрос и представит ответ на основании имеющихся документов.

В зависимости от объема документов и сложности вопроса время ответа может составлять 3 секунды и более.

В настоящее время возможно создание чат-ботов на основе документов на русском языке.

Создание базы знаний

Для создания базы знаний документов чат-бота:

  1. Откройте проект сценария.

  2. Перейдите в раздел База знаний. В результате откроется окно Документы.

  3. Загрузите нужный файл. Для загрузки доступен формат PDF. Начнется процесс загрузки и разбора файла. В случае ошибки валидации файла будет отображено сообщение об ошибке в области загрузки файла. После загрузки вам будет доступна информация о его размере, дате добавления и статусе:

    • Можно тестировать документ используется для генерации ответа в тестовом виджете.
    • Используется в каналах документ используется для ответов чат-бота в опубликованных каналах.
    • Ошибка документ загружен с ошибкой, его можно только удалить. Этот статус также может быть присвоен документу не только после загрузки, но и в ходе обучения или публикации. Ошибка это статус документа, который говорит о том, что после текущее действие с документом завершилось ошибкой. Статусы Загрузка и Парсинг промежуточные статусы, отображающие процесс добавления документа в базу знаний. Документы в этом статусе нельзя удалить или отключить.
  4. Для добавления нового файла нажмите Добавить.

Для добавленных документов будет отображен размер документа в словах. Этот параметр заполняется после успешной загрузки и парсинга документов.

Значение использованного лимита обновляется после загрузки нового документа.

Доступный объем базы знаний документов ограничен по количеству слов. В базу знаний можно загрузить документы, суммарное количество слов в которых не превышает 300 000. 

Загрузка документа, которая приведет к превышению лимита, будет отклонена. 

При загрузке файла через URL ссылка должна содержать валидную HTML-страницу без авторизации.

Динамический контент на странице может быть доступен не полностью.

При формировании ответов на основании документов используется только их текстовое содержимое. Иллюстрации и любой и другой мультимедиа контент в ответах использоваться не будет.

Размер одного файла не должен превышать 50 Мб.

Ограничения

Размер базы знаний одного проекта ограничен: не более 300 000 слов.

Размер документа измеряется в словах и определяется после парсинга распознавания текстового содержимого документа.

Управление документами базы знаний

Для гибкой настройки работы чат-бота вы можете управлять загруженными ранее документами, например:

  • Отключить документ. Документ можно отключить в статусе Можно тестировать и Используется в каналах через контекстное меню файла. Отключенный документа не будет использоваться ни в тестировании, ни в опубликованном канале.
  • Включить документ. Включение опубликованного документа делает его доступным для дальнейшей работы. После включения сохранится предыдущий статус документа. Например, если документ был в статусе Используется в каналах, после включения он так же будет сразу доступен в опубликованых каналах.
  • Удалить документ. Удаление документа приводит к его безвозвратному удалению из базы знаний и для поиска он больше использоваться не будет. Документы в статусе Используется в каналах перед удалением необходимо отключить.

До момента публикации и запуска тестового виджета версии для тестирования основной считается опубликованная ранее версия.

Настройка приоритетов запроса

Вы можете настроить приоритет срабатывания ответов из документов относительно результатов классификации в сценарии (интентов, примеров и паттернов). Этот параметр определяет, в каких случаях должны срабатывать ответы из базы знаний.

Для этого в разделе Настройки базы знаний по документам выберите необходимый параметр Приоритет срабатывания:

  • Высокий найденные ответы из базы знаний по документам срабатывают в первую очередь, при этом если в документах не найдено ничего подходящего, должны проверяться варианты по интентам, примерам и паттернам.
  • Низкий найденные ответы из базы знаний по документам срабатывают только в том случае, если не найдено подходящих вариантов по интентам, примерам или паттернам.
  • Не активный база знаний не будет срабатывать в сценарии, кроме тех случаев, когда она была явно вызвана из блока, поиск по документам использоваться не будет.

Тестирование базы знаний и сценария

Тестирование базы знаний

  1. Откройте проект сценария SaluteBot.

  2. Перейдите в раздел База знаний.

  3. Откройте раздел базы знаний на основе файла, куда ранее был успешно загружен файл. Будет представлена форма редактирования раздела базы знаний.

  4. Нажмите Тестировать. В результате будет открыт тестовый виджет поиска по документам.

  5. Напишите запрос и отправьте его. Начнется обработка запроса.

В этом случае будет тестироваться только база знаний по документам. Для тестового запроса используются все включенные документы в статусах Можно тестировать и Используется в каналах. В результатах будет отображен вариант ответа, найденный в добавленных документах, и фрагмент текста, на основании которого была выполнена классификация.

Тестирование сценария с базой знаний

Для тестирования сценария с учетом базы знаний по документам используйте тестовый виджет.

При запросе будет учитывается выставленный приоритет базы знаний по документам. Для тестового запроса по документам используются все включенные документы в статусах Можно тестировать и Используется в каналах.

Подробнее о тестировании чат-ботов.

Внедрение базы знаний на основе документа

Перед внедрением не забудьте добавить интеграцию с чат-платформой.

После успешного завершения тестирования чат-бота в подключенных каналах необходимо внедрить документ.

Для этого:

  1. Откройте проект сценария SaluteBot.

  2. Перейдите в раздел База знаний.

  3. Откройте раздел базы знаний на основе файла, куда ранее был успешно загружен файл. Будет представлена форма редактирования раздела базы знаний.

  4. Нажмите Внедрить. Обратите внимание: после обучения результаты будут использованы для бота в проме. Будет отображена публикация модели. Если в процессе обучения возникла ошибка, будет представлено сообщение об ошибке.

В результате внедрения все документы в статусе Можно тестировать будут опубликованы и получат статус Используется в каналах. На основании этих документов чат-бот будет отвечать клиентам в подключенных каналах интеграции SaluteBot. Загруженные файлы будут отображены в списке файлов раздела в статусе Актуальны (кроме файлов, отключенных вручную).

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.