Внутри AI | Кейсы ИИ Агентов в бизнесе

Как оценить агентскую систему?

Агентскую систему удобнее рассматривать как pipeline из шагов. Поэтому одной метрики success rate недостаточно: нужны два уровня оценки: качество каждого шага и итоговое поведение end-to-end.

1. Оценка каждого шага. Для каждого этапа определяем, что значит «хорошо», и задаём метрики.
Оценка шага даёт прозрачную зону ответственности и упрощает дебаг.

2. End-to-end оценка. End-to-end показывает, насколько система полезна бизнесу.
Например, лайк/дизлайк пользователя или ручная разметка.

Пример: упрощённая агентская система, RAG как двухшаговый агент

Шаг 1: retriever. Tool call к векторному индексу или поиску для получения контекста.
Шаг 2: LLM. Генерация ответа на основе retrieved context.

Даже в таком pipeline нельзя ограничиться одной метрикой.

1. Оценка retriever’а. Оцениваем только первый шаг:

▫️recall@k — нашёл ли нужные документы
▫️precision@k — доля релевантных среди top_k

Retriever прогоняем отдельно от LLM. Если он работает плохо, смотреть на ответы модели бессмысленно — она просто не видит нужный контекст.

2. Оценка LLM (step-level). Фиксируем retriever или используем заранее собранные контексты:

▫️faithfulness / groundedness — опирается ли ответ на context,
▫️factuality — совпадают ли факты с документами,
▫️hallucination rate — доля ответов, где модель что-то придумала,
▫️format compliance — соблюдение требуемого формата (буллеты, markdown и т.д.).

3. End-to-end RAG evaluation. Смотрим на полную цепочку: query -> retriever -> LLM -> answer.
Для стартовой оценки хватает 50–100 вручную размеченных примеров.

Если виден только «плохой ответ», нельзя сказать, виноват retriever или модель. Пошаговая оценка превращает RAG из случайного поведения в инженерный pipeline с понятными точками улучшения.

В следующем посте разберу, как автоматически генерировать датасеты для каждого этапа и сократить объём ручной разметки.

#александр_опрышко

🔥8❤4👍4

914 views12:08