Forwarded from Neural Kovalskii
Circuit Tracing от Anthropic: как мы в R&D by red_mad_robot решили заглянуть внутрь LLM при использовании в RAG-пайплайнах
Ищем галлюцинации под микроскопом!
29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!
В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.
Почему именно RAG-пайплайны и Circuit Tracing?
Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени
Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели
Конкретные результаты нашего исследования
85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.
Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."
Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф
Технические вызовы и решения
Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера
Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям
Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах
Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре
Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта
Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды
Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +
Ищем галлюцинации под микроскопом!
29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!
В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.
Почему именно RAG-пайплайны и Circuit Tracing?
Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени
Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели
Конкретные результаты нашего исследования
85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.
Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."
Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф
Технические вызовы и решения
Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера
Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям
Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах
Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре
Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта
Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды
Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +
Хабр
Circuit Tracing: как заглянуть в галлюцинации модели и найти там смысл
Всем привет! Меня зовут Ирина, я NLP-инженер в red_mad_robot, занимаюсь научными исследованиями интерпретируемости LLM и анализом механизмов внутренних вычислений моделей, чтобы применять полученные...
❤14🔥8🏆5
Neural Kovalskii
Circuit Tracing от Anthropic: как мы в R&D by red_mad_robot решили заглянуть внутрь LLM при использовании в RAG-пайплайнах Ищем галлюцинации под микроскопом! 29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической…
Спасибо, что поделились своими идеями, ждем статью на arxiv и межнар. конфу. В целом, наши беседы с Валерой про детекцию глюков/девиантного поведения LMок и породили серию постов в канале об этом: тут, тут и тут.
🔥9❤6
Галлюцинации, как недостаток энтропии для генерации токенов.
Ща будет сложное миясо 😈 осторожно длинопост.
Свежая и очень интересная статья, которая может связать концептуальное понимание глюков через недостаток знаний (в обывательском смысле) и недостаток информации для генерации уверенных/надежных токенов в Байессовском.
Авторы статьи задаются вопросом: если LLM приближенно выполняют байесовский вывод, то почему они демонстрируют нарушение инвариантности к перестановкам данных? Проще говоря, если изменить порядок слов во входном контексте, модель может выдать разные ответы, что противоречит принципам строгого байесовского вывода.Кстати, мы используем этот артефакт для атак языковых моделей в нашей библиотеке augmentex , и это работает не только для decoder, но и для encoder моделей.
Такое явление напрямую связано с проблемой галлюцинаций. Исследователи ставят задачу объяснить этот парадокс и предложить теоретическую основу, которая не просто констатирует, а предсказывает возникновение галлюцинаций.
Ключевая идея исследования заключается в том, что языковые модели оптимизируют не истинную условную энтропию ℓ(Y|X), а ожидаемую кросс-энтропию по всем перестановкам входных данных.
Это означает, что модель является "байесовской в среднем", но не для каждого конкретного порядка слов. На основе этого авторы выводят несколько важных теоретических результатов:
1. Quantified Martingale Violation Bound: Показывает, что отклонения, вызванные порядком слов, масштабируются как O(log n).
2. Expectation-level Decompression Law: Связывает информационный бюджет модели с надежностью ее ответов.
Прим. Что такое информационный бюджет EDFL? EDFL — это математический закон, который устанавливает точную связь между количеством информации, доступной модели для ответа и максимально достижимой надежностью этого ответа.
Его главная роль заключается в том, что он превращает галлюцинации из непредсказуемых сбоев в предсказуемые последствия нехватки информации.
Исследователи сравнивают это с поврежденным ZIP-архивом: если при сжатии были потеряны данные, то при распаковке алгоритм выдаст "мусор", чтобы заполнить пробелы. EDFL позволяет заранее рассчитать, достаточно ли данных для корректного "восстановления" факта.
Согласно EDFL, для того чтобы поднять вероятность корректного ответа с априорного уровня q (когда у модели мало контекста) до целевого уровня надежности p, требуется информационный бюджет Δ, измеряемый в натах (единица информации).
Формула EDFL задает нижнюю границу для этого бюджета:
Δ ≥ (1 - ε) * log(1 / q) + O(q), где
1 - ε — целевая надежность ответа (например, 95%).
q — средняя априорная вероятность правильного ответа, рассчитанная по "ослабленным" версиям промпта (например, с удаленными или замаскированными ключевыми фактами).
Δ — информационный бюджет, который измеряется как разница между логарифмом вероятности ответа на полный промпт и средним значением логарифмов вероятностей на ослабленных промптах.
Проще говоря, эта формула показывает: чем реже или неочевиднее факт (ниже q), тем больше информации Δ требуется модели, чтобы дать на него надежный ответ.
3. Мониторы B2T/RoH/ISR: Практические инструменты для принятия решений "ответить" или "воздержаться" от ответа, основанные на расчетах информационного бюджета.
- Bits-to-Trust (B2T): Рассчитывает, сколько именно информации (в битах или натах) необходимо для достижения заданного пользователем уровня надежности h* (например, не более 5% галлюцинаций). B2T = KL(Ber(1 - h*) || Ber(q_lo)), где q_lo — наихудшая априорная оценка.
- Risk-of-Hallucination (RoH): Оценивает максимально достижимую надежность (или, наоборот, риск ошибки) при текущем информационном бюджете Δ.
- Information Sufficiency Ratio (ISR): Ключевое отношение для принятия решения. ISR = Δ / B2T.
• Если ISR ≥ 1, информации достаточно, и модель можно уверенно отвечать.
• Если ISR < 1, информационный бюджет недостаточен, и безопаснее отказаться от ответа.
Свежая и очень интересная статья, которая может связать концептуальное понимание глюков через недостаток знаний (в обывательском смысле) и недостаток информации для генерации уверенных/надежных токенов в Байессовском.
Авторы статьи задаются вопросом: если LLM приближенно выполняют байесовский вывод, то почему они демонстрируют нарушение инвариантности к перестановкам данных? Проще говоря, если изменить порядок слов во входном контексте, модель может выдать разные ответы, что противоречит принципам строгого байесовского вывода.
Такое явление напрямую связано с проблемой галлюцинаций. Исследователи ставят задачу объяснить этот парадокс и предложить теоретическую основу, которая не просто констатирует, а предсказывает возникновение галлюцинаций.
Ключевая идея исследования заключается в том, что языковые модели оптимизируют не истинную условную энтропию ℓ(Y|X), а ожидаемую кросс-энтропию по всем перестановкам входных данных.
Это означает, что модель является "байесовской в среднем", но не для каждого конкретного порядка слов. На основе этого авторы выводят несколько важных теоретических результатов:
1. Quantified Martingale Violation Bound: Показывает, что отклонения, вызванные порядком слов, масштабируются как O(log n).
2. Expectation-level Decompression Law: Связывает информационный бюджет модели с надежностью ее ответов.
Прим. Что такое информационный бюджет EDFL? EDFL — это математический закон, который устанавливает точную связь между количеством информации, доступной модели для ответа и максимально достижимой надежностью этого ответа.
Его главная роль заключается в том, что он превращает галлюцинации из непредсказуемых сбоев в предсказуемые последствия нехватки информации.
Исследователи сравнивают это с поврежденным ZIP-архивом: если при сжатии были потеряны данные, то при распаковке алгоритм выдаст "мусор", чтобы заполнить пробелы. EDFL позволяет заранее рассчитать, достаточно ли данных для корректного "восстановления" факта.
Согласно EDFL, для того чтобы поднять вероятность корректного ответа с априорного уровня q (когда у модели мало контекста) до целевого уровня надежности p, требуется информационный бюджет Δ, измеряемый в натах (единица информации).
Формула EDFL задает нижнюю границу для этого бюджета:
Δ ≥ (1 - ε) * log(1 / q) + O(q), где
1 - ε — целевая надежность ответа (например, 95%).
q — средняя априорная вероятность правильного ответа, рассчитанная по "ослабленным" версиям промпта (например, с удаленными или замаскированными ключевыми фактами).
Δ — информационный бюджет, который измеряется как разница между логарифмом вероятности ответа на полный промпт и средним значением логарифмов вероятностей на ослабленных промптах.
Проще говоря, эта формула показывает: чем реже или неочевиднее факт (ниже q), тем больше информации Δ требуется модели, чтобы дать на него надежный ответ.
3. Мониторы B2T/RoH/ISR: Практические инструменты для принятия решений "ответить" или "воздержаться" от ответа, основанные на расчетах информационного бюджета.
- Bits-to-Trust (B2T): Рассчитывает, сколько именно информации (в битах или натах) необходимо для достижения заданного пользователем уровня надежности h* (например, не более 5% галлюцинаций). B2T = KL(Ber(1 - h*) || Ber(q_lo)), где q_lo — наихудшая априорная оценка.
- Risk-of-Hallucination (RoH): Оценивает максимально достижимую надежность (или, наоборот, риск ошибки) при текущем информационном бюджете Δ.
- Information Sufficiency Ratio (ISR): Ключевое отношение для принятия решения. ISR = Δ / B2T.
• Если ISR ≥ 1, информации достаточно, и модель можно уверенно отвечать.
• Если ISR < 1, информационный бюджет недостаточен, и безопаснее отказаться от ответа.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19🔥11
Dealer.AI
Галлюцинации, как недостаток энтропии для генерации токенов. Ща будет сложное миясо 😈 осторожно длинопост. Свежая и очень интересная статья, которая может связать концептуальное понимание глюков через недостаток знаний (в обывательском смысле) и недостаток…
В итоге, галлюцинации предлагается рассматривать не как случайные ошибки, а как предсказуемые провалы сжатия информации.
Эксперименты.
Для проверки своей теории авторы провели серию экспериментов, где предлагают рассмотреть следующие стратегии:
1. Анализ дисперсии перестановок (Permutation Dispersion). Исследователи оценивали, насколько меняется вывод модели при изменении порядка слов в промпте.
2. Смеси перестановок (Permutation Mixtures). Использовались усредненные результаты по множеству перестановок для проверки улучшения точности.
3. Рандомизированный dose-response анализ. Тут измерялось, как количество информации в натах влияет на вероятность галлюцинаций.
4. Аудит с фиксированным порогом (ISR=1.0). Проверялась эффективность предложенного метода контроля за надежностью ответов.
Используемые метрики:
–Дисперсионный анализ - зависимость дисперсии от логарифма длины контекста.
– Правдоподобие генерируемых последовательностей и точность по отношению к ground-truth данным.
– Снижение уровня галлюцинаций (на ~0.13) при увеличении информационного бюджета на один нат.
– Процент воздержаний (Abstention Rate) и итоговый уровень галлюцинаций при контролируемом выводе с помощью формул-мониторов.
Итого, интересный взгляд авторов на решение проблем "не знаю" и галлюцинациий. Предложен новый способ формализации confidence моделей для ответа или воздержания от него, а также показана связь между проблемой и Байессовским выводом/теорией информации.
Уже и репо с имлементацией есть: https://github.com/leochlon/hallbayes
А также на Haystack уже завезли в свой haystack_experimental пакет:
https://haystack.deepset.ai/cookbook/hallucination_score_calculator
Эксперименты.
Для проверки своей теории авторы провели серию экспериментов, где предлагают рассмотреть следующие стратегии:
1. Анализ дисперсии перестановок (Permutation Dispersion). Исследователи оценивали, насколько меняется вывод модели при изменении порядка слов в промпте.
2. Смеси перестановок (Permutation Mixtures). Использовались усредненные результаты по множеству перестановок для проверки улучшения точности.
3. Рандомизированный dose-response анализ. Тут измерялось, как количество информации в натах влияет на вероятность галлюцинаций.
4. Аудит с фиксированным порогом (ISR=1.0). Проверялась эффективность предложенного метода контроля за надежностью ответов.
Используемые метрики:
–Дисперсионный анализ - зависимость дисперсии от логарифма длины контекста.
– Правдоподобие генерируемых последовательностей и точность по отношению к ground-truth данным.
– Снижение уровня галлюцинаций (на ~0.13) при увеличении информационного бюджета на один нат.
– Процент воздержаний (Abstention Rate) и итоговый уровень галлюцинаций при контролируемом выводе с помощью формул-мониторов.
Итого, интересный взгляд авторов на решение проблем "не знаю" и галлюцинациий. Предложен новый способ формализации confidence моделей для ответа или воздержания от него, а также показана связь между проблемой и Байессовским выводом/теорией информации.
Уже и репо с имлементацией есть: https://github.com/leochlon/hallbayes
А также на Haystack уже завезли в свой haystack_experimental пакет:
https://haystack.deepset.ai/cookbook/hallucination_score_calculator
GitHub
GitHub - leochlon/pythea
Contribute to leochlon/pythea development by creating an account on GitHub.
❤20🔥11🤯3
Dealer.AI
Mem-agent еще одна концепция памяти 🧠 В своих постах про память, а также выступлении на datafest я обозревал самые популярные подходы к созданию памяти: long context, саммаризация, ner, function calling и rag. Однако мельком, буквально на слайдике одним…
Мода на файловую память, теперь и код-агенты anthropic.
Вышло agentic SDK от антропика и там нашлось несколько интересных вещей про контекст и память.
Это уже практичное и модное решение, которое в разной форме мы наблюдали у manus и memagent.
Основные позиции – не засоряем контекст и кладем все в файловую систему ОС. Также для поиска НЕ используем без нужды семантику или даже bm25, оставаясь на grep/tail и прочих способах поиска встроенными инструментами вашей ОС. Да это не исключает проблемы больших файлов, где grep может быть не эффективен, но скорее всего, подобно идее с чанкованием, для памяти создается иерархическая память на "малых" файлах.
В итоге, центре всего стоит тезис: зачем нам семантика, когда можно взять поиск в ОС и агента для чтения и записи? Но, думаю, без семантики не обойтись, особенно, когда у нас много зависит от контекста, да еще и синонимов до кучи. Однако, быстренько найти нужный нейм файла, пойдет, а если не вышло (пустой поиск), уже можно полнотекстом и семантикой искать имя, тем самым балансировать между скоростью и надежностью/сложностью поиска.Особенно для файлов сотни мб или гб. Тут кстати и может помочь аналог чанкования, в виде иерархии файлов, на которые заранее бьём большие. Далее, берем файлик и читаем агентом, переносим из файла релевантное в контекст.
В любом случае, такое решение в итоге завязывает вас на эффективный контекст и конечно свойство роутинга, ризонинга и поиска по контексту. Крч хорошая llm вам нужна, которая у антропика есть. Но есть ли она у вас?)
Вышло agentic SDK от антропика и там нашлось несколько интересных вещей про контекст и память.
Это уже практичное и модное решение, которое в разной форме мы наблюдали у manus и memagent.
Основные позиции – не засоряем контекст и кладем все в файловую систему ОС. Также для поиска НЕ используем без нужды семантику или даже bm25, оставаясь на grep/tail и прочих способах поиска встроенными инструментами вашей ОС. Да это не исключает проблемы больших файлов, где grep может быть не эффективен, но скорее всего, подобно идее с чанкованием, для памяти создается иерархическая память на "малых" файлах.
В итоге, центре всего стоит тезис: зачем нам семантика, когда можно взять поиск в ОС и агента для чтения и записи? Но, думаю, без семантики не обойтись, особенно, когда у нас много зависит от контекста, да еще и синонимов до кучи. Однако, быстренько найти нужный нейм файла, пойдет, а если не вышло (пустой поиск), уже можно полнотекстом и семантикой искать имя, тем самым балансировать между скоростью и надежностью/сложностью поиска.
В любом случае, такое решение в итоге завязывает вас на эффективный контекст и конечно свойство роутинга, ризонинга и поиска по контексту. Крч хорошая llm вам нужна, которая у антропика есть. Но есть ли она у вас?)
🔥17❤5🤔1
Forwarded from ДАНЯ ПЕЧАТАЕТ...
Вчера наблюдал реакцию коллег и знакомых на новую функцию OpenAI — ChatGPT Pulse.
Кто-то: «вау, какие персоналки!»
Кто-то: «ну всё, конец рексису».
Реальность, как всегда, сложнее.
Что такое Pulse — простыми словами
Pulse — это новый мобильный интерфейс для Pro-пользователей: ночью ассистент выполняет асинхронный сбор информации и утром выдаёт персональные обновления.
Контекст берётся из:
Карточки обновляются каждый день. Фокус не «забирать утро», а напоминать о важном.
Моё мнение как пользователя
Функция выглядит полезной и понятной широкой аудитории. Стратегически это логичный шаг: инвесторы и рынок ожидают масштабируемых продуктовых решений, которые простым людям решают повседневные задачи.
Однако говорить о «Feels AGI» преждевременно пока оно не способна выполнять бытовые действия — помыть посуду, заказать такси, комплексно спланировать ужин и автоматически закупить продукты — о чем вообще речь?
Моё мнение как специалиста по персонализации
Персонализация — это эволюция, а не революция. OpenAI постепенно шла к этому: папки → memory → агенты → персонализация чатов → доступ к календарю и внешним данным.
Pulse логично вписывается в этот путь и легко монетизируется. Бренд Сэма Альтмана создаёт сильный эффект «презентации»: любая новая функция вызывает широкий интерес и как же это похоже на
Подобные решения уже давно появлялись у других игроков — Perplexity, Яндекс (Нейропоиск и интеграции в экосистему), Google. Я до сих пор не видел ни одной успешной интеграции, где бы такой интерфейс полностью заменил рекомендательные системы.
Я уверен, что у меня есть четкое объяснение — Поиск ≠ рекомендации
Поиск помогает, когда ВЫ знаете, что ищете. Рекомендательные системы угадывают, когда вы сами не знаете, что хотите.
→ Конец рексису? Серьёзно? Тогда и «будильник» можно назвать убийцей Spotify.
MADE IN @danyatyping
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤7💯4
MCP benchmark, как способ атомарного измерения качества работы агентов и интеграции с FC/TC.
Сегодня расскажу о статье "MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use". Это исследование представляет собой новый эталонный тест для оценки работы LLM с внешними системами через MCP. Статья интересна тем, что подобно атомарным измерениям RAG систем (поиск, реранкинг, ответ LLM), показывает как можно измерить качество агентов с вызовом тулов. Как мы знаем, зачастую агенты с тулами ввиду своей нелинейности и недетерминированности сложно измеряются на качество в каждом действии, тк на одну и ту же задачу в разном контексте может быть разное количество действий. А таких бенчей нам и не хватало.
🎯 Постановка задачи
Авторы статьи отмечают, что существующие тесты для MCP остаются ограниченными: они фокусируются на задачах, связанных в основном с чтением информации, либо на задачах с небольшой глубиной взаимодействия. В результате, они не отражают комплексность и реалистичность рабочих процессов из реального мира. Это создает трудности в оценке истинной производительности современных моделей и агентов, а также их способностей к ризонигу, планированию, обработке длинного контекста и использованию инструментов. Цель состоит в том, чтобы получить такой комплексный бенчмарк.
💡 Идея подхода
В качестве решения предлагается бенчмарк MCPMark, который оценивает использование MCP более реалистично и комплексно. Его ключевые особенности:
– Реалистичные задачи: 127 высококачественных задач, созданных совместно экспертами и AI-агентами. Если уже не реалистичные, ну хотя бы приближенные к реальным.
– Сложные взаимодействия. Задачи требуют разнообразных операций Create, Read, Update, Delete (CRUD) в пяти различных средах: Notion, GitHub, Filesystem, PostgreSQL и Playwright.
– Программная проверка подобно награде в GRPO с компиляцией кода. Каждая задача включает скрипт программы для автоматической верификации результата, что делает оценку более объективной.
– Создание контекста разработки. Каждая задача начинается с тщательно подобранного начального состояния (например, шаблон базы данных или репозиторий GitHub с историей) и создается в рамках pipeline, сочетающего исследование, усложнение задачи, верификацию и действие.
🧪 Дизайн метрик
Для оценки моделей был создан MCPMark-Agent – минималистичный и универсальный фреймворк, который выполняет модели в стандартном tool-calling loop. Это обеспечивает честное и последовательное сравнение различных LLM.
Основные метрики, использованные в исследовании:
– pass@1 процент задач, успешно решенных моделью с первой попытки.
– pass^4 более строгая метрика, отражающая процент задач, которые модель стабильно решает в каждом из четырех запусков. Авторы подчеркивают, что эта метрика лучше отражает реальные условия, где надежность критически важна.
– Среднее количество ходов и вызовов инструментов на задачу. Эти метрики показывают сложность задач и эффективность модели.
🔢 Результаты оценки моделей
Ниже приведены примеры результатов оценки современных LLM, которые демонстрируют сложность бенчмарка:
•gpt-5-medium (OpenAI) имеет 52.56%, 33.86% метрики pass@1 и pass^4 соответственно.
•claude-sonnet-4 (Anthropic) <30%, <15% соответственно
•o3 (OpenAI) < 30%, < 15% соответственно.
В среднем, для решения одной задачи LLM требовалось 16.2 шагов выполнения и 17.4 вызова инструментов, что существенно превышает показатели в предыдущих бенчмарках.
🤔 Почему это важно
Исследование имеет несколько важных следствий для области AI-агентов:
1. Создание более реалистичной и надежной оценки. MCPMark предлагает гораздо более строгий и приближенный к реальности тест для агентов, чем предыдущие усилия.
2. Выявление слабых мест в работе систем агентов с тулами. Результаты ясно показывают, что даже самые передовые модели сегодня с трудом справляются со сложными, многошаговыми рабочими процессами. Большой разрыв между pass@1 и pass^4 указывает на это.
Надеюсь такой бенчмарк покажет пример как можно измерять агентов не только e2e и мы увидим еще больше атомарных бенчей.
Сегодня расскажу о статье "MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use". Это исследование представляет собой новый эталонный тест для оценки работы LLM с внешними системами через MCP. Статья интересна тем, что подобно атомарным измерениям RAG систем (поиск, реранкинг, ответ LLM), показывает как можно измерить качество агентов с вызовом тулов. Как мы знаем, зачастую агенты с тулами ввиду своей нелинейности и недетерминированности сложно измеряются на качество в каждом действии, тк на одну и ту же задачу в разном контексте может быть разное количество действий. А таких бенчей нам и не хватало.
🎯 Постановка задачи
Авторы статьи отмечают, что существующие тесты для MCP остаются ограниченными: они фокусируются на задачах, связанных в основном с чтением информации, либо на задачах с небольшой глубиной взаимодействия. В результате, они не отражают комплексность и реалистичность рабочих процессов из реального мира. Это создает трудности в оценке истинной производительности современных моделей и агентов, а также их способностей к ризонигу, планированию, обработке длинного контекста и использованию инструментов. Цель состоит в том, чтобы получить такой комплексный бенчмарк.
💡 Идея подхода
В качестве решения предлагается бенчмарк MCPMark, который оценивает использование MCP более реалистично и комплексно. Его ключевые особенности:
– Реалистичные задачи: 127 высококачественных задач, созданных совместно экспертами и AI-агентами. Если уже не реалистичные, ну хотя бы приближенные к реальным.
– Сложные взаимодействия. Задачи требуют разнообразных операций Create, Read, Update, Delete (CRUD) в пяти различных средах: Notion, GitHub, Filesystem, PostgreSQL и Playwright.
– Программная проверка подобно награде в GRPO с компиляцией кода. Каждая задача включает скрипт программы для автоматической верификации результата, что делает оценку более объективной.
– Создание контекста разработки. Каждая задача начинается с тщательно подобранного начального состояния (например, шаблон базы данных или репозиторий GitHub с историей) и создается в рамках pipeline, сочетающего исследование, усложнение задачи, верификацию и действие.
🧪 Дизайн метрик
Для оценки моделей был создан MCPMark-Agent – минималистичный и универсальный фреймворк, который выполняет модели в стандартном tool-calling loop. Это обеспечивает честное и последовательное сравнение различных LLM.
Основные метрики, использованные в исследовании:
– pass@1 процент задач, успешно решенных моделью с первой попытки.
– pass^4 более строгая метрика, отражающая процент задач, которые модель стабильно решает в каждом из четырех запусков. Авторы подчеркивают, что эта метрика лучше отражает реальные условия, где надежность критически важна.
– Среднее количество ходов и вызовов инструментов на задачу. Эти метрики показывают сложность задач и эффективность модели.
🔢 Результаты оценки моделей
Ниже приведены примеры результатов оценки современных LLM, которые демонстрируют сложность бенчмарка:
•gpt-5-medium (OpenAI) имеет 52.56%, 33.86% метрики pass@1 и pass^4 соответственно.
•claude-sonnet-4 (Anthropic) <30%, <15% соответственно
•o3 (OpenAI) < 30%, < 15% соответственно.
В среднем, для решения одной задачи LLM требовалось 16.2 шагов выполнения и 17.4 вызова инструментов, что существенно превышает показатели в предыдущих бенчмарках.
🤔 Почему это важно
Исследование имеет несколько важных следствий для области AI-агентов:
1. Создание более реалистичной и надежной оценки. MCPMark предлагает гораздо более строгий и приближенный к реальности тест для агентов, чем предыдущие усилия.
2. Выявление слабых мест в работе систем агентов с тулами. Результаты ясно показывают, что даже самые передовые модели сегодня с трудом справляются со сложными, многошаговыми рабочими процессами. Большой разрыв между pass@1 и pass^4 указывает на это.
Надеюсь такой бенчмарк покажет пример как можно измерять агентов не только e2e и мы увидим еще больше атомарных бенчей.
arXiv.org
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
MCP standardizes how LLMs interact with external systems, forming the foundation for general agents. However, existing MCP benchmarks remain narrow in scope: they focus on read-heavy tasks or...
🔥12❤6👍1
GRPO на самом деле DPO и это многое упрощает 😱
Не буду приводить доказательства, вся зубодробительная математика тут. Скажу лишь, что GRPO было развитием PPO от команды DeepSeek при создании R семейства. Данный метод также исследует политику на разных траекториях, только сводит все в группы. Т.к. это ppo-like подход мы наследуем все те же проблемы стабилизации и настройки алгоритма, мало у кого кроме таких топ игроков он завелся для LLM предсказуемо. Поэтому модификация в виде dpo like (оч подробно писал тут про это) нам дает более простой, стабильный и надёжный вариант RLHF чисто на уровне sft.
Поэтому данная статья считаю оч важна и упростит жизнь AI-engineer при обучении моделек. Модификацию к dpo-like лосса GRPO приложу на скринах ниже.
Не буду приводить доказательства, вся зубодробительная математика тут. Скажу лишь, что GRPO было развитием PPO от команды DeepSeek при создании R семейства. Данный метод также исследует политику на разных траекториях, только сводит все в группы. Т.к. это ppo-like подход мы наследуем все те же проблемы стабилизации и настройки алгоритма, мало у кого кроме таких топ игроков он завелся для LLM предсказуемо. Поэтому модификация в виде dpo like (оч подробно писал тут про это) нам дает более простой, стабильный и надёжный вариант RLHF чисто на уровне sft.
Поэтому данная статья считаю оч важна и упростит жизнь AI-engineer при обучении моделек. Модификацию к dpo-like лосса GRPO приложу на скринах ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1👌1🦄1
Forwarded from Pavel Zloi
Пару недель назад, Александр @dealerAI подробно рассказывал у себя на канале о проекте MemAgent, если в двух словах, то это проект запускающий специально науськанную на работу с файловой систему модель, для того чтобы на оной организовать Obsidian-подобное хранилище памяти, в виде эдаких заметок.
Меня данная возможность очень впечатлила, стал пробовать для локальной разработки, оказалось решение состоит из двух компонентов:
- хитрой LLM driaforall/mem-agent основанной на qwen3 4b, скрипты обучения модели тут (в репе будут еще и логи обучения 14b модели, но веса почему-то не выложили)
- обёртки firstbatchxyz/mem-agent-mcp для непосредственной работы с файловой системой в формате простенького MCP-сервера, к сожалению без Dockerfile
Ну и сами понимаете, пришлось ручками упаковывать всё в Docker-образ, по итогу у меня получились:
- отдельно docker-compose.yaml для запуска LLM-модельки на GPU-сервере с vLLM
- сам Dockerfile чтобы упаковать mem-agent
- и дополнительный docker-compose.yaml чтобы управлять сборкой Dockerfile
К слову сказать моделька отжирает 9Гб даже при bnb-квантизации до int4 с контекстом 4000 токена, так что вероятно в будущем я её конвертирую в GGUF.
Меня данная возможность очень впечатлила, стал пробовать для локальной разработки, оказалось решение состоит из двух компонентов:
- хитрой LLM driaforall/mem-agent основанной на qwen3 4b, скрипты обучения модели тут (в репе будут еще и логи обучения 14b модели, но веса почему-то не выложили)
- обёртки firstbatchxyz/mem-agent-mcp для непосредственной работы с файловой системой в формате простенького MCP-сервера, к сожалению без Dockerfile
Ну и сами понимаете, пришлось ручками упаковывать всё в Docker-образ, по итогу у меня получились:
- отдельно docker-compose.yaml для запуска LLM-модельки на GPU-сервере с vLLM
- сам Dockerfile чтобы упаковать mem-agent
- и дополнительный docker-compose.yaml чтобы управлять сборкой Dockerfile
К слову сказать моделька отжирает 9Гб даже при bnb-квантизации до int4 с контекстом 4000 токена, так что вероятно в будущем я её конвертирую в GGUF.
❤13
ModernVBERT, как fromage только для энкодера.
На днях ребята из моей группы эмбеддеров прислали статью про новый multimodal embedder. Очень изящный и красивый подход, мое увожение.🎩
В общем, как получают vlm без омнимодальности? Берут decoder выделяют ему спец токены под image projection, в которой кормят эмбы с картиночного бэкбона: clip, siglip, resnet и т.п. че хотите. Это живет вместе с текстовыми токенами, далее уже учатся генерить контекстно тексты, с опорой на мультимодальную информацию. Также можно кормить и аудио эмбы и видео и т.п. Такое придумали пару лет назад ребята из fromage, там правда еще присыпали темами с двухголовостью (token prediction + еще image retrieval), но это произвело фурор и дало ОГРОМНЫЙ вклад в создание последующих VLM и т.п.
Но в ModernVBERT челики красиво еще повернули эту темку. Тип, а че мы ток можем с декодерами так жить? Вигвам, будем пробовать с энкодером.Прям как мы с мерджингом.
Далее гипотеза: "а что если вкинем тоже самое в энкодер, ток на этапе MLM и тип у нас будет картинос эмб помогать помимо текстового контекста демаскировать токен (см. схему ниже)?" Собрали, обучили и получилось. Причем этот подход совмещает в себе два рабочих: первый, конечно же вышеуказанный fromage, а второй это REALM (картинка тоже будет снизу).
REALM - это RAG только не на этапе инференса, а на этапе MLM претрена, тут мы кидаем подсказки с БД в контекст энкодера для улучшения качества демаскирования токена. И тоже вполне себе рабочий подход.
В итоге микст дает:
1. Использование спец токенов для картиночных эмбов во общем внимании с текстовым контекстом.
2. Учит эти представления помогать для лучшего демаскирования токенов в MLM таске e2e.
Обучение идет по схеме: претрен на чисто текстовой задачке (опускаем, т.к. ModernBERT уже обучен) , далее допретрен (они зовут это выравнивание) на картиносах, далее contrastive tuning уже на ретривал задачу.
В завершении, получается турбо-хомяк до 300м параметров, с прекрасными свойствами мультимодального поиска и возможностью запускать модельку на CPU.🌿
На днях ребята из моей группы эмбеддеров прислали статью про новый multimodal embedder. Очень изящный и красивый подход, мое увожение.
В общем, как получают vlm без омнимодальности? Берут decoder выделяют ему спец токены под image projection, в которой кормят эмбы с картиночного бэкбона: clip, siglip, resnet и т.п. че хотите. Это живет вместе с текстовыми токенами, далее уже учатся генерить контекстно тексты, с опорой на мультимодальную информацию. Также можно кормить и аудио эмбы и видео и т.п. Такое придумали пару лет назад ребята из fromage, там правда еще присыпали темами с двухголовостью (token prediction + еще image retrieval), но это произвело фурор и дало ОГРОМНЫЙ вклад в создание последующих VLM и т.п.
Но в ModernVBERT челики красиво еще повернули эту темку. Тип, а че мы ток можем с декодерами так жить? Вигвам, будем пробовать с энкодером.
Далее гипотеза: "а что если вкинем тоже самое в энкодер, ток на этапе MLM и тип у нас будет картинос эмб помогать помимо текстового контекста демаскировать токен (см. схему ниже)?" Собрали, обучили и получилось. Причем этот подход совмещает в себе два рабочих: первый, конечно же вышеуказанный fromage, а второй это REALM (картинка тоже будет снизу).
REALM - это RAG только не на этапе инференса, а на этапе MLM претрена, тут мы кидаем подсказки с БД в контекст энкодера для улучшения качества демаскирования токена. И тоже вполне себе рабочий подход.
В итоге микст дает:
1. Использование спец токенов для картиночных эмбов во общем внимании с текстовым контекстом.
2. Учит эти представления помогать для лучшего демаскирования токенов в MLM таске e2e.
Обучение идет по схеме: претрен на чисто текстовой задачке
В завершении, получается турбо-хомяк до 300м параметров, с прекрасными свойствами мультимодального поиска и возможностью запускать модельку на CPU.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
ModernVBERT: Towards Smaller Visual Document Retrievers
Retrieving specific information from a large corpus of documents is a prevalent industrial use case of modern AI, notably due to the popularity of Retrieval-Augmented Generation (RAG) systems....
🔥22❤7
Онлайн конференция по использованию AI в разработке
Мои товарищи решили сделать онлайн AIDev конфу, и конечно, позвали меня поучаствовать, а я приглашаю Вас. Будет без буллщита и воды. Только личный опыт от действующих инженеров и их менеджеров.
Спикеры: тех лиды, руководители разработки, CTO и AI head.
Когда: 14 октября,14:30 14:00 (мск)
О чем: 6 докладов про эффективное использование AI инструментов в разработке для разного уровня подготовки от начинающих инженеров до авторов собственных тулов, от индивидуальных контрибьюторов до руководителей команд и департаментов.
Посмотреть детали и зарегистрироваться.
Upd. Будьте внимательны, обновлено время начала.
Мои товарищи решили сделать онлайн AIDev конфу, и конечно, позвали меня поучаствовать, а я приглашаю Вас. Будет без буллщита и воды. Только личный опыт от действующих инженеров и их менеджеров.
Спикеры: тех лиды, руководители разработки, CTO и AI head.
Когда: 14 октября,
О чем: 6 докладов про эффективное использование AI инструментов в разработке для разного уровня подготовки от начинающих инженеров до авторов собственных тулов, от индивидуальных контрибьюторов до руководителей команд и департаментов.
Посмотреть детали и зарегистрироваться.
Upd. Будьте внимательны, обновлено время начала.
❤19🔥7👍3😁1