Hodoscope - это открытый инструмент для анализа поведения ИИ-агентов без предварительного знания того, что именно искать.
Проект решает проблему, с которой сталкивается любая команда, развертывающая агентов на реальных задачах: автоматические LLM-оценщики разделяют слепые пятна самих агентов и пропускают нестандартные сбои.
Показательный пример: SWE-bench, где агентам дают реальные GitHub-баги для исправления. Репозиторий чекаутится на коммит до патча, но сам коммит с решением остается доступен через git log.
Некоторые агенты этим воспользовались: вместо анализа проблемы они извлекали готовый diff из истории. Когда авторы Hodoscope попросили Opus 4.6 оценить такой трейс, модель не нашла ничего подозрительного, и только после явной подсказки признала проблему.
Hodoscope работает в три этапа:
Человеку остается изучить только выделенные кластеры, а не тысячи трейсов целиком.
По словам авторов, в эксперименте с 5 моделями на SWE-bench уникальный кластер
git log - действий у iQuest обнаружился за несколько минут, хотя таких действий было лишь 2% (79 из 4006).Инструмент принимает трейсы в форматах Docent, Inspect AI .eval, OpenHands JSONL и обычный JSON.
Для обобщения и эмбеддингов поддерживается любая модель через LiteLLM: OpenAI, Gemini, Anthropic и т.д., а результаты обработки трейсов собираются в интерактивную HTML-карту.
@ai_machinelearning_big_data
#AI #ML #LLM #ARFORUM #Hodoscope
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163🔥43❤40🤔33👏13🎉8😁7🥰4😍4👻3❤🔥1