Технические требования
Время ответа
Агент должен отдавать ответ на запрос пользователя в установленные платформой сроки.
Работа с файлами
Агент должен соблюдать условия платформы по формату файлов. Если есть ограничение по размеру загружаемого файла, оно должно быть до загрузки файла.
Внешние API
Внешние API, которые использует агент, соответствуют требованиям платформы.
Тестовые корзины. Аналитика и качество
- Репутационная корзина
Размер: 10—100 запросов.
Цель по метрике GCR: 100%.
Требования к корзине:
- Сод ержание. В корзине должны быть популярные, маркетинговые, репутационно важные запросы, которые нужно отрабатывать в любом случае.
- Источник данных. Предпочтение отдается реальным данным (например, случайная выборка из исторических запросов). Синтетические данные допустимы, если реальных нет, но оценка по ним будет менее точной.
- Категоризация. Каждый объект в датасете должен быть отнесен к определенной категории (тип запроса, тематика и т. д.). Это позволит детально анализировать ошибки.
- Правильные ответы на запросы. Если правильный ответ агента на запрос пользователя единственный и не меняется со временем, то он должен быть указан в корзине.
- Recall-корзина
Размер: не менее 250 примеров.
Цель по метрике GCR: > 85%.
Требования к корзине:
- Репрезентативность. Датасет должен отражать все разнообразие генеральной совокупности. Это важнее, чем просто большой размер выборки.
- Покрытие всех типов запросов. Датасет должен покрывать все или наиболее значимые/регулярные типы запросов, которые могут встретиться в реальной работе. Каждый тип должен быть представлен как можно большим числом примеров.
- Стратификация (качественное наполнение). Для обеспечения репрезентативности рекомендуется использовать стратифицированное сэмплирование:
- Экспертно выделить ключевые категории объектов (страты).
- Включить в датасет примеры из всех выделенных страт.
- Большую долю в датасете следует отводить категориям с наиболее ценными, рискованными или сложными запросами, либо с большим количеством вариаций.
- Источник данных. Предпочтение отдается реальным данным (например, случайная выборка из исторических запросов). Синтетические данные допустимы, если реальных нет, но оценка по ним будет менее точной.
- Категоризация. Каждый объект в датасете должен быть отнесен к определенной категории (тип запроса, тематика и т. д.). Это позволяет детально анализировать ошибки.
- Правильные ответы на запросы. Если правильный ответ агента на запрос пользователя единственный и не меняется со временем, то он должен быть указан в корзине.
- Отложенная выборка. Вопросы в тестовой корзине не должны быть использованы для подбора гиперпараметров и/или настройки промптов агента.
- FPR-корзина
Размер: не менее 250 примеров.
Цель по метрике 1-FPR: > 85%.
Требования к корзине:
- Содержание. В корзине должны содержаться запросы близкие к целевым запросам агента, но не целевые. Пример для агента-календаря: «Как организовать встречу с коллегами в выходные в ресторане?».
- Источник данных. Предпочтение отдается реальным данным (например, случайная выборка из исторических запросов). Синтетические данные допустимы, если реальных нет, но оценка по ним будет менее точной.
- Категоризация. Каждый объект в датасете должен быть отнесен к определенной категории (тип запроса, тематика и т. д.). Это позволит детально анализировать ошибки.
- Корзина проверки безопасности
Размер: до 50—100 примеров.
Цель по метрике доля небезопасных ответов: < 5%.
Требования к корзине:
- Содержание. В корзине должны содержаться запросы, на которые пользователю потенциально может быть дан небезопасные ответы: нарушающие законодательство, несущие репутационные риски для компании.
- Источник данных. Предпочтение отдается реальным данным (например, случайная выборка из исторических запросов). Синтетические данные допустимы, если реальных нет, но оценка по ним будет менее точной.
- Категоризация. Каждый объект в датасете должен быть отнесен к определенной категории (тип запроса, тематика и т. д.). Это позволит детально анализировать ошибки.
Стабильность работы под нагрузкой и в длинной сессии
Агент не должен замедляться или прекращать работать после 10—15 минут диалога или обработки серии последовательных запросов. Критерий проверки: в ходе 15-минутного тестового диалога с 20+ последовательными, но логически связанными запросами, агент отвечает корректно.