Время доказать, что есть архитектуры AI агентов лучше, чем SGR!
Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.
Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.
Кстати, Валерий написал пост про то, как он взял 100
Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))
Ваш, @llm_under_hood 🤗
Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.
Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.
Кстати, Валерий написал пост про то, как он взял 100
Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))
Ваш, @llm_under_hood 🤗
🔥33❤12👍10🤯2😁1
ERC3-TEST уже доступен
Это расширенный вариант задач для отладки работы вашего агента с ERC3 бенчмарком.
Платформа | Регистрация | Пример агента | Видео на русском
Из нового:
(1) Aetherion купила большая группа компаний, которая немного поменяла правила игры - см в wiki. Некоторые задачи используют этот контекст. Агент может его обнаружить, отслеживая значение
(2) Этот бенчмарк использует старое API от ERC-DEV, поэтому клиент не меняется. Соревновательный бенчмарк будет использовать тот же механизм переключения.
(3) Вызовы к симулированным апишкам теперь работают с задержкой в 300ms, чтобы было реалистичнее.
(4) Добавил release notes на сайт.
Кстати, у ERC3-TEST - свой leaderboard. Пока он пуст))
Ваш, @llm_under_hood 🤗
Это расширенный вариант задач для отладки работы вашего агента с ERC3 бенчмарком.
Платформа | Регистрация | Пример агента | Видео на русском
Из нового:
(1) Aetherion купила большая группа компаний, которая немного поменяла правила игры - см в wiki. Некоторые задачи используют этот контекст. Агент может его обнаружить, отслеживая значение
wiki_sha1 в /whoami. В соревновательном бенчмарке будет в сумме 3-4 разных компании. В реальности в multi-tenant выкатках агентов могут быть и сотни контекстов, но для бенчмарка 3-4 хватит "за глаза".(2) Этот бенчмарк использует старое API от ERC-DEV, поэтому клиент не меняется. Соревновательный бенчмарк будет использовать тот же механизм переключения.
(3) Вызовы к симулированным апишкам теперь работают с задержкой в 300ms, чтобы было реалистичнее.
(4) Добавил release notes на сайт.
Кстати, у ERC3-TEST - свой leaderboard. Пока он пуст))
Ваш, @llm_under_hood 🤗
❤16🔥13🤯4😱1
Как насчет логгирования в ERC3 не только статистики (число tokens) но и ответов LLM целиком на платформе (для античита и анализа)? Без логгирования промптов.
Anonymous Poll
10%
Записывать только usage статистику в tokens, как сейчас
55%
Статистика + ответы (completion/output)
34%
Не хочу голосовать
🤯2
Выложил пример агента, который решает ERC3-TEST до 58
Вот пример сессии
Исходники лежат в Github. Ядро агента - 181 строчек Python. Там показано, как:
(1) извлекать правила из wiki
(2) делать это только один раз (при изменении wiki)
(3) сделать pipeline из нескольких шагов с preflight check (для проверки безопасности)
(4) добавить свои (более удобные для LLM) инструменты агенту
Агент базовый, для демонстрации принципов. Его можно заметно улучшить.
Ваш, @llm_under_hood 🤗
Вот пример сессии
Исходники лежат в Github. Ядро агента - 181 строчек Python. Там показано, как:
(1) извлекать правила из wiki
(2) делать это только один раз (при изменении wiki)
(3) сделать pipeline из нескольких шагов с preflight check (для проверки безопасности)
(4) добавить свои (более удобные для LLM) инструменты агенту
Агент базовый, для демонстрации принципов. Его можно заметно улучшить.
Ваш, @llm_under_hood 🤗
🔥51❤11🤔3🤯2😱1
Что оказалось для вас самым ценным инсайтом при разработке своего AI агента на ERC3 платформе?
Уже 17 команд (из 492) выбили идеальные 100 на ERC3-DEV бенчмарке. И похоже, скоро "соток" станет больше - судя по нашему чату, команды продолжают разбираться в архитектуре агентов и улучшать свои решения. А это значит, что мы вместе набираем больше опыта, становимся лучше и двигаем вперед state-of-the-art.
Расскажите что-нибудь про свой опыт с ERC3 платформой! Что было самым прикольным и неожиданным?
Ваш, @llm_under_hood 🤗
Уже 17 команд (из 492) выбили идеальные 100 на ERC3-DEV бенчмарке. И похоже, скоро "соток" станет больше - судя по нашему чату, команды продолжают разбираться в архитектуре агентов и улучшать свои решения. А это значит, что мы вместе набираем больше опыта, становимся лучше и двигаем вперед state-of-the-art.
Расскажите что-нибудь про свой опыт с ERC3 платформой! Что было самым прикольным и неожиданным?
Ваш, @llm_under_hood 🤗
🔥21❤11👍6🤯2💯2
Записали keynote interview с Эриком Эвансом на тему DDD + LLMs. Проиграем его 9 декабря, в начале ERC3!
Ссылку опубликую в канале на следующей неделе.
Ваш, @llm_under_hood 🤗
Ссылку опубликую в канале на следующей неделе.
Ваш, @llm_under_hood 🤗
🔥69❤17🥰6👍4😱3🤯2
SDK / API для Enterprise RAG Challenge обновлены - поправьте заранее своих агентов!
Детали есть в release notes для версии 1.1.6. Там есть breaking changes. Примеры агентов уже обновлены до SDK 1.2.0.
Изменения:
(1) При запуске бенчмакрка можно явно указать фокус - точность, стоимость, скорость и/или локальный запуск (можно несколько сразу). Это будет использоваться в соревновании 9 декабря. Агенты с фокусом на `accuracy` cоревнуются за призы. Другие фокусы - пойдут в отдельные leaderboards.
(2) изменился формат отправки статистики tokens - теперь это просто типизированные поля.
(3) при отправке телеметрии еще нужно отправлять completion (текст ответа llm-ки). Prompt отправлять не обязательно.
Пожалуйста, заранее обновите своих AI агентов до новой версии SDK и запустите один раз на ERC3-DEV или ERC3-TEST, чтобы убедиться, что весь код отрабатывает штатно. 9 Декабря достаточно будет перезапустить код на ERC3-PROD.
План на 9 декабря
9:00 CET - Keynote
10:30 CET - открывается ERC3-PROD
11:30 CET - prize deadline для
То есть час на прогон агента и отладку (если что-то вдруг падает)
Extended competition (без призов) - до 16 декабря.
16 декабря замораживаем leaderboards (они будут опубликованы на TimeToAct и abdullin.com) и раскрываем evals/scoring для ERC3-PROD.
Уведомления на почту вышлем всем зарегистрированным участникам.
Платформа | Регистрация | Пример агента | Видео на русском
Ваш, @llm_under_hood 🤗
Детали есть в release notes для версии 1.1.6. Там есть breaking changes. Примеры агентов уже обновлены до SDK 1.2.0.
Изменения:
(1) При запуске бенчмакрка можно явно указать фокус - точность, стоимость, скорость и/или локальный запуск (можно несколько сразу). Это будет использоваться в соревновании 9 декабря. Агенты с фокусом на `accuracy` cоревнуются за призы. Другие фокусы - пойдут в отдельные leaderboards.
(2) изменился формат отправки статистики tokens - теперь это просто типизированные поля.
(3) при отправке телеметрии еще нужно отправлять completion (текст ответа llm-ки). Prompt отправлять не обязательно.
Пожалуйста, заранее обновите своих AI агентов до новой версии SDK и запустите один раз на ERC3-DEV или ERC3-TEST, чтобы убедиться, что весь код отрабатывает штатно. 9 Декабря достаточно будет перезапустить код на ERC3-PROD.
План на 9 декабря
9:00 CET - Keynote
10:30 CET - открывается ERC3-PROD
11:30 CET - prize deadline для
accuracy.То есть час на прогон агента и отладку (если что-то вдруг падает)
Extended competition (без призов) - до 16 декабря.
16 декабря замораживаем leaderboards (они будут опубликованы на TimeToAct и abdullin.com) и раскрываем evals/scoring для ERC3-PROD.
Уведомления на почту вышлем всем зарегистрированным участникам.
Платформа | Регистрация | Пример агента | Видео на русском
Ваш, @llm_under_hood 🤗
❤14👍14🔥9🤯2
Стрим с Эриком Эвансом начнется через 15 минут тут: YouTube. Он создал Domain-Driven Design, по которому работают IT консультанты крупнейших корпораций мира. И мы поговорим про то, как LLM/AI влияют как раз на продуктовую и корпоративную разработку.
А через 100 минут на этом стриме мы запустим ERC3-PROD.
Оба стрима останутся в записи.
Ваш, @llm_under_hood 🤗
А через 100 минут на этом стриме мы запустим ERC3-PROD.
Оба стрима останутся в записи.
Ваш, @llm_under_hood 🤗
🔥29❤13👍9🤯2
ERC3-PROD is live
(1) Призовой сompete-accuracy раунд продлится в сумме 3 часа. 10:40 CET - 13:40 CET. Последняя сессия с флагом
(2) До следующей недели длится extended round. Можно запускать сессии в любых категориях, и они пойдут в официальные leaderboards, которые будут опубликованы.
16 декабря в 9:00 CET его закрываем extended round, а в 10:00 CET будет reveal всех очков и leaderboards. Тогда же ERC3-PROD перейдет в публичный режим и будем показывать evals/scores на лету. Бенчмарки останутся, live leaderboards будут продолжать считаться.
А после 16 декабря будем неспешно собирать инсайты, разбирать аналитику и публиковать истории и кейсы топовых команд.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, регистрацию пока закрыли, но если кто-то еще хочет добавиться - напишите в комментарии, попрошу TimeToAct запустить заново. Либо добавлю регистрацию прямо на платформу.
Ваш, @llm_under_hood 🤗
[1] Не сессия с самым высоким accuracy, чтобы компании с кучей GPU/LLM credits не могли просто забрутфорсить лишние 5-10% accuracy.
(1) Призовой сompete-accuracy раунд продлится в сумме 3 часа. 10:40 CET - 13:40 CET. Последняя сессия с флагом
compete_accuracy, которая была отправлена до deadline, идет в зачет. [1](2) До следующей недели длится extended round. Можно запускать сессии в любых категориях, и они пойдут в официальные leaderboards, которые будут опубликованы.
16 декабря в 9:00 CET его закрываем extended round, а в 10:00 CET будет reveal всех очков и leaderboards. Тогда же ERC3-PROD перейдет в публичный режим и будем показывать evals/scores на лету. Бенчмарки останутся, live leaderboards будут продолжать считаться.
А после 16 декабря будем неспешно собирать инсайты, разбирать аналитику и публиковать истории и кейсы топовых команд.
Платформа | Регистрация | Пример агента | Видео на русском
Кстати, регистрацию пока закрыли, но если кто-то еще хочет добавиться - напишите в комментарии, попрошу TimeToAct запустить заново. Либо добавлю регистрацию прямо на платформу.
Ваш, @llm_under_hood 🤗
[1] Не сессия с самым высоким accuracy, чтобы компании с кучей GPU/LLM credits не могли просто забрутфорсить лишние 5-10% accuracy.
🔥21❤9⚡4🤯4👍2🤗1
Три технических отличия успешных внедрений ИИ в бизнес
- это мой доклад на платформе ИИтоги-25. Через две недели, 23 декабря, я буду рассказывать про то, как внедряли ИИ в компаниях в 2025 году. Что работало хорошо, а что - никак. Кроме этого, поделюсь инсайтами про лучшие архитектуры AI-агентов на наших ERC3 бенчмарках.
Доступ - за подписки на участников (потом можно отписаться, а можно и не отписаться).
Из нашего с вами коммьюнити там будут еще рассказывать @nikolay_sheyko, @refatametov, @Myfinancier и @VaKovaLskii, поэтому точно будет привычное нам приземление на реальную практику и SotA.
Записаться можно тут.
Ваш, @llm_under_hood 🤗
- это мой доклад на платформе ИИтоги-25. Через две недели, 23 декабря, я буду рассказывать про то, как внедряли ИИ в компаниях в 2025 году. Что работало хорошо, а что - никак. Кроме этого, поделюсь инсайтами про лучшие архитектуры AI-агентов на наших ERC3 бенчмарках.
Доступ - за подписки на участников (потом можно отписаться, а можно и не отписаться).
Из нашего с вами коммьюнити там будут еще рассказывать @nikolay_sheyko, @refatametov, @Myfinancier и @VaKovaLskii, поэтому точно будет привычное нам приземление на реальную практику и SotA.
Записаться можно тут.
Ваш, @llm_under_hood 🤗
🔥32👍19🤯4❤1
Как проверять качество AI чатботов, которые интегрируются в бизнес?
Вот примерно так, как на этом скриншоте. Список вопросов текстом слева и автоматические оценки справа. При необходимости - возможность зайти в каждый тест и посмотреть, что там было неправильно.
Если командам разработки подготовить тесты/evals в таком формате (что не требует навыков в AI), тогда для самих разработчиков все становится кристально понятно, а процесс повышения качества превращается в увлекательную игру.
А как вы тестируете качество чатботов?
Ваш, @llm_under_hood 🤗
PS: про мой подход к тестированию, см в истории про спасение проекта с LLM под капотом.
Вот примерно так, как на этом скриншоте. Список вопросов текстом слева и автоматические оценки справа. При необходимости - возможность зайти в каждый тест и посмотреть, что там было неправильно.
Если командам разработки подготовить тесты/evals в таком формате (что не требует навыков в AI), тогда для самих разработчиков все становится кристально понятно, а процесс повышения качества превращается в увлекательную игру.
А как вы тестируете качество чатботов?
Ваш, @llm_under_hood 🤗
PS: про мой подход к тестированию, см в истории про спасение проекта с LLM под капотом.
👍23💯21🔥10❤7🤯2
Помните, я рассказывал, что Lukasz Kaiser (OpenAI Reasoning Research, один из авторов той самой статьи «Attention is all you need», которая начала эру трансформеров) назвал наш Schema-Guided Reasoning тупиковым путем развития?
Время летит! Прошло всего два с половиной месяца и, похоже, что кто-то немножко усомнился.
А расскажите про свои новые успешные внедрения, демки, проекты или заключенные контракты, которые случились за последние два месяца? Что было нового?
Ваш, @llm_under_hood 🤗
Время летит! Прошло всего два с половиной месяца и, похоже, что кто-то немножко усомнился.
А расскажите про свои новые успешные внедрения, демки, проекты или заключенные контракты, которые случились за последние два месяца? Что было нового?
Ваш, @llm_under_hood 🤗
🔥38❤14😁4🤯1
AI Coding - итоги разработки ERC3 платформы
Итак, платформа для соревновательного тестирования агентов запущена, и получилась достаточно сложная (глянуть тут). Там есть бенчмарки, визуализация, API c SDK. Всем этим пользуются команды (521 регистраций). С момента создания команды запустили 203560 оценок работы агентов, каждая - в своей независимой симуляции.
Все это я разработал сам. Но без AI Coding все вытянуть бы не получилось. Примерно 600%-700% процентов кода платформы написали OpenAI Codex (Web версия), Claude Code CLI, Github Copilot.
Почему 600-700%? Потому, что много переписывалось просто потому, что мне казалось, что новая версия будет чище, проще или элегантнее. Вручную это делать бы лень, но когда есть AI инструменты - все идет проще.
У нас было такое разделение обязанностей в команде:
(1) Человек - показывает, как правильно делать. Следит за тем, чтобы архитектура, инструкции были четкими и непротиворечивыми. Держит агентов на очень коротком поводке. Если нужно - чистит тех долг.
(2) OpenAI Codex - анализ сложных задач, работа с инфраструктурой и backend, планирование. Всегда работает в режиме x4 (запуск 4х версий), а я выбираю лучшую.
(3) Claude Code - работа с интерфейсами, мелкие фичи и повседневная разработка. Обычно в параллели крутятся 2-3 сессии, которые работают над своими задачами.
(4) Github Copilot - исключительно как умный autocomplete.
При этом человек всегда несет ответственность за код, который отправляется в main.
Жизнь упрощал стэк, который я подобрал экспериментально именно под такой командный состав и мои хотелки про эргономику работы. Go для backend (gin/SQLite), HTMX для интерактивности и тестируемости агентами, Python для SDK и аналитики. Вся платформа компилируется в один единственный бинарь и деплоится под NixOS с Caddy (c ARM64 процессорами из интереса). Стили свои с нуля - Claude cобрал Style guide, превратил в фреймворк и натянул на платформу.
Инструкций особенных не было. Только AICODE-* заметки, использование планов в сложных задачах и императив на “будьте практичными, используйте только те паттерны, которые уже есть в коде, не тащите всякую каку из интернета”. Но и несмотря на такую инструкцию, агенты периодически начинали лить воду - городили ненужные абстракции, функции и классы. Приходилось периодически засучивать рукава и чистить все это. Чем больше развивался проект, тем это нужно было реже, т.к. накапливалась критическая масса примеров того, как нужно делать правильно.
После выкатки платформы, ее внезапно все начали использовать очень активно. Пошел быстрый feedback по глюкам и ошибкам. Тут очень хорошо помог настроенный комбайн. Достаточно было скопировать хотелку, баг репорт или stack trace в агента, чтобы быстро увидеть причину, а потом и быстро ее пофиксить и выкатить.
Самым приятном хайлайтом было, когда в определенный момент нагрузка на сервер достигла 25%, и я сказал “Клод, дорогой, вот тебе строка для подключения go pprof. Выясни, что так грузит сервер и предложи мне минимальный фикс для этого”. Спустя минут пять нагрузка упала до приемлемых для меня 6%
Дальше я собираюсь переписать все с нуля, чтобы заложить большую масштабируемость, упростить архитектуру и добавить возможность запускать более разнообразные бенчмарки. Год назад я бы не рискнул, а теперь AI существенно меняет экономику разработки. Одно переписывание больше погоды не делает. Не человеку же писать весь этот код. А вычитывать - сильно проще. Особенно, когда архитектура и стэк позволяют ужимать код.
А у вас заходит AI Coding/Vibe Coding? Расскажите про свои проекты, в которых вам помогал AI. Какие инструменты использовали, какой стэк там был, и как этими проектами теперь пользуются люди? Сколько токенов уходит в месяц?
Ваш, @llm_under_hood 🤗
Итак, платформа для соревновательного тестирования агентов запущена, и получилась достаточно сложная (глянуть тут). Там есть бенчмарки, визуализация, API c SDK. Всем этим пользуются команды (521 регистраций). С момента создания команды запустили 203560 оценок работы агентов, каждая - в своей независимой симуляции.
Все это я разработал сам. Но без AI Coding все вытянуть бы не получилось. Примерно 600%-700% процентов кода платформы написали OpenAI Codex (Web версия), Claude Code CLI, Github Copilot.
Почему 600-700%? Потому, что много переписывалось просто потому, что мне казалось, что новая версия будет чище, проще или элегантнее. Вручную это делать бы лень, но когда есть AI инструменты - все идет проще.
У нас было такое разделение обязанностей в команде:
(1) Человек - показывает, как правильно делать. Следит за тем, чтобы архитектура, инструкции были четкими и непротиворечивыми. Держит агентов на очень коротком поводке. Если нужно - чистит тех долг.
(2) OpenAI Codex - анализ сложных задач, работа с инфраструктурой и backend, планирование. Всегда работает в режиме x4 (запуск 4х версий), а я выбираю лучшую.
(3) Claude Code - работа с интерфейсами, мелкие фичи и повседневная разработка. Обычно в параллели крутятся 2-3 сессии, которые работают над своими задачами.
(4) Github Copilot - исключительно как умный autocomplete.
При этом человек всегда несет ответственность за код, который отправляется в main.
Жизнь упрощал стэк, который я подобрал экспериментально именно под такой командный состав и мои хотелки про эргономику работы. Go для backend (gin/SQLite), HTMX для интерактивности и тестируемости агентами, Python для SDK и аналитики. Вся платформа компилируется в один единственный бинарь и деплоится под NixOS с Caddy (c ARM64 процессорами из интереса). Стили свои с нуля - Claude cобрал Style guide, превратил в фреймворк и натянул на платформу.
Инструкций особенных не было. Только AICODE-* заметки, использование планов в сложных задачах и императив на “будьте практичными, используйте только те паттерны, которые уже есть в коде, не тащите всякую каку из интернета”. Но и несмотря на такую инструкцию, агенты периодически начинали лить воду - городили ненужные абстракции, функции и классы. Приходилось периодически засучивать рукава и чистить все это. Чем больше развивался проект, тем это нужно было реже, т.к. накапливалась критическая масса примеров того, как нужно делать правильно.
После выкатки платформы, ее внезапно все начали использовать очень активно. Пошел быстрый feedback по глюкам и ошибкам. Тут очень хорошо помог настроенный комбайн. Достаточно было скопировать хотелку, баг репорт или stack trace в агента, чтобы быстро увидеть причину, а потом и быстро ее пофиксить и выкатить.
Самым приятном хайлайтом было, когда в определенный момент нагрузка на сервер достигла 25%, и я сказал “Клод, дорогой, вот тебе строка для подключения go pprof. Выясни, что так грузит сервер и предложи мне минимальный фикс для этого”. Спустя минут пять нагрузка упала до приемлемых для меня 6%
Дальше я собираюсь переписать все с нуля, чтобы заложить большую масштабируемость, упростить архитектуру и добавить возможность запускать более разнообразные бенчмарки. Год назад я бы не рискнул, а теперь AI существенно меняет экономику разработки. Одно переписывание больше погоды не делает. Не человеку же писать весь этот код. А вычитывать - сильно проще. Особенно, когда архитектура и стэк позволяют ужимать код.
А у вас заходит AI Coding/Vibe Coding? Расскажите про свои проекты, в которых вам помогал AI. Какие инструменты использовали, какой стэк там был, и как этими проектами теперь пользуются люди? Сколько токенов уходит в месяц?
Ваш, @llm_under_hood 🤗
👍50❤35🔥25🤣5👏1🤯1💯1
Финал ERC3!
URL Updated! Стрим будет тут через час. Запись останется.
Подведем итоги и поговорим про архитектуры победителей, агенты которых которых смогли вслепую выбить на корпоративной симуляции высокие очки.
Спасибо всем, кто прислал детальные отчеты!
Ваш, @llm_under_hood 🤗
URL Updated! Стрим будет тут через час. Запись останется.
Подведем итоги и поговорим про архитектуры победителей, агенты которых которых смогли вслепую выбить на корпоративной симуляции высокие очки.
Спасибо всем, кто прислал детальные отчеты!
Ваш, @llm_under_hood 🤗
🔥34🤗11❤9👍5😢2🤯1😱1👨💻1
Вы круты!
Закончилась основная часть соревнования, где разные команды со всего мира вслепую решали сложные задачи корпоративной автоматизации при помощи AI:
- Leaderboard (призовой 3-х часовой раунд и extended round). Эти результаты заморожены навсегда. Я буду дополнять архитектуры описаниями и ссылками на решения (по мере поступления обновлений от команд). Но рейтинги уже меняться не будут.
- Финальный стрим
Бенчмарк теперь работает в публичном режиме, показывает подсказки и сразу оценивает работу агентов.
Этот бенчмарк гораздо сложнее реальных условий разворачивания AI агентов. В реальности есть возможность подкрутить промпты, добавить шорткаты, допилить агентов. А здесь у всех команд заранее был только доступ к корпоративному API. А компания за этим API открылась только в момент соревнования, со своими данными, корпоративной базой знаний и всякими CRM/ERP системами. Более того, на каждую задачу генерировалась с нуля своя небольшая вселенная. Ах, да, там еще были правила безопасности и попытки эту безопасность немного сломать.
Понятно, что не все задачи сделаны мной идеально, но для оценки уровня SotA в построении агентов - этого хватить должно.
Те, команды, агенты которых смогли выбить больше 40% accuracy вслепую в таких условиях, на реальных корпоративных условиях смогут показать точность выше 90%. Уже показывают.
Особенно круты те команды, которые использовали необычные архитектуры, локальные модели или даже разворачивали свое железо!
Спасибо вам! А теперь, давайте, посмотрим на лучшие результаты (см описания архитектур в лидерборде) и подтолкнем State of the Art еще дальше!
Ваш, @llm_under_hood 🤗
PS: Платформа остается, можно продолжать ей пользоваться. Вопрос с новыми регистрациями постараюсь решить на днях
Закончилась основная часть соревнования, где разные команды со всего мира вслепую решали сложные задачи корпоративной автоматизации при помощи AI:
- Leaderboard (призовой 3-х часовой раунд и extended round). Эти результаты заморожены навсегда. Я буду дополнять архитектуры описаниями и ссылками на решения (по мере поступления обновлений от команд). Но рейтинги уже меняться не будут.
- Финальный стрим
Бенчмарк теперь работает в публичном режиме, показывает подсказки и сразу оценивает работу агентов.
Этот бенчмарк гораздо сложнее реальных условий разворачивания AI агентов. В реальности есть возможность подкрутить промпты, добавить шорткаты, допилить агентов. А здесь у всех команд заранее был только доступ к корпоративному API. А компания за этим API открылась только в момент соревнования, со своими данными, корпоративной базой знаний и всякими CRM/ERP системами. Более того, на каждую задачу генерировалась с нуля своя небольшая вселенная. Ах, да, там еще были правила безопасности и попытки эту безопасность немного сломать.
Понятно, что не все задачи сделаны мной идеально, но для оценки уровня SotA в построении агентов - этого хватить должно.
Те, команды, агенты которых смогли выбить больше 40% accuracy вслепую в таких условиях, на реальных корпоративных условиях смогут показать точность выше 90%. Уже показывают.
Особенно круты те команды, которые использовали необычные архитектуры, локальные модели или даже разворачивали свое железо!
Спасибо вам! А теперь, давайте, посмотрим на лучшие результаты (см описания архитектур в лидерборде) и подтолкнем State of the Art еще дальше!
Ваш, @llm_under_hood 🤗
PS: Платформа остается, можно продолжать ей пользоваться. Вопрос с новыми регистрациями постараюсь решить на днях
YouTube
Winners Announcement | Enterprise RAG Challenge 3
In this livestream, we officially announced the winning teams and top-performing AI agents of ERC3. Over the course of the challenge, teams from around the world built and evaluated AI agents under realistic enterprise conditions, competing across multiple…
🔥55❤27🎉11👍6👏4🤯2🥰1😢1
Помните, когда-то давно я рассказывал про историю разработки своего reasoning агента, который мог разгрызать сложные compliance документы?
И тогда это казалось какими-то космическими технологиями. Особенно удивляло, что логические цепочки настолько стабильные, что выдерживают запуск и на локальных моделях.
Это больше не дальний космос, а вполне себе освоенное пространство в нашем коммьюнити! Просто посмотрите на топовые результаты из лидерборда (я загрузил туда новых описаний архитектур от команд - жмем на треугольник, чтобы увидеть детали).
Во-первых, 5 из 10 агентов в топе способны работать долго самостоятельно (от 1 до 7 минут на задачу) и при этом не сойти с ума. Свой работающий Deep Research у каждого второго!
Во-вторых, архитектура Ильи Риса на втором месте использует под капотом gpt-oss-120B, которую можно запускать на своих серверах. Облачные модели уже не являются единственным способом получить хорошого агента - теперь мы упираемся в архитектуры.
В-третих, просто полистайте зоопарк архитектур и моделей. Чего там только нет. Начиная от быстрых и локальных агентов на базе qwen3-235b-a22b-2507 и до экзотической само-модифицирующейся системы на базе claude-opus-4.5. Команды на их базе строят разные решения, от точных и дорогих, до медленных и дешевых, до сбалансированных. Самое главное, что теперь не нужно жертвовать точностью для получения бюджетных решений.
Но при этом агенты, которые оптимизируются на быстрые ответы - это отдельная песня, со своими архитектурными нюансами.
В-четвертых, примечательно, что SGR NextStep архитектура (которая родилась в той reasoning истории) теперь довольно часто упоминается в качестве базовой. В лидербордах представлены агенты начиная с легких модификаций с дополнительными инструментами и до сильно измененной реализации на втором месте. Но одного наличия SGR не достаточно для победы, имеет значение то, чем ее дополняют. Да и первое место вообще без нее обошлось.
В-пятых, более точные решения обычно явно прописывают в архитектурах упор на простоту и прозрачность, отдельную логику на валидацию и работу с правилами. Демо агенты показывали подход с rule distillation и preflight checks, но команды с точными агентами развили эту тему гораздо глубже.
В общем, если кратко собрать выводы про построение самого точного и внедряемого в бизнес агента, то нужно делать упор на: deterministic control flow + distilled rules + automated validation + iterative self-improvement, где LLM-ка - это не центральный движок, а просто заменяемый планировщик и преобразователь информации.
Ваш, @llm_under_hood 🤗
И тогда это казалось какими-то космическими технологиями. Особенно удивляло, что логические цепочки настолько стабильные, что выдерживают запуск и на локальных моделях.
Это больше не дальний космос, а вполне себе освоенное пространство в нашем коммьюнити! Просто посмотрите на топовые результаты из лидерборда (я загрузил туда новых описаний архитектур от команд - жмем на треугольник, чтобы увидеть детали).
Во-первых, 5 из 10 агентов в топе способны работать долго самостоятельно (от 1 до 7 минут на задачу) и при этом не сойти с ума. Свой работающий Deep Research у каждого второго!
Во-вторых, архитектура Ильи Риса на втором месте использует под капотом gpt-oss-120B, которую можно запускать на своих серверах. Облачные модели уже не являются единственным способом получить хорошого агента - теперь мы упираемся в архитектуры.
В-третих, просто полистайте зоопарк архитектур и моделей. Чего там только нет. Начиная от быстрых и локальных агентов на базе qwen3-235b-a22b-2507 и до экзотической само-модифицирующейся системы на базе claude-opus-4.5. Команды на их базе строят разные решения, от точных и дорогих, до медленных и дешевых, до сбалансированных. Самое главное, что теперь не нужно жертвовать точностью для получения бюджетных решений.
Но при этом агенты, которые оптимизируются на быстрые ответы - это отдельная песня, со своими архитектурными нюансами.
В-четвертых, примечательно, что SGR NextStep архитектура (которая родилась в той reasoning истории) теперь довольно часто упоминается в качестве базовой. В лидербордах представлены агенты начиная с легких модификаций с дополнительными инструментами и до сильно измененной реализации на втором месте. Но одного наличия SGR не достаточно для победы, имеет значение то, чем ее дополняют. Да и первое место вообще без нее обошлось.
В-пятых, более точные решения обычно явно прописывают в архитектурах упор на простоту и прозрачность, отдельную логику на валидацию и работу с правилами. Демо агенты показывали подход с rule distillation и preflight checks, но команды с точными агентами развили эту тему гораздо глубже.
В общем, если кратко собрать выводы про построение самого точного и внедряемого в бизнес агента, то нужно делать упор на: deterministic control flow + distilled rules + automated validation + iterative self-improvement, где LLM-ка - это не центральный движок, а просто заменяемый планировщик и преобразователь информации.
Ваш, @llm_under_hood 🤗
🔥53👍18❤14🤗3😱2🤯1
Вот мне тут после ERC3 пишут:
- Я хочу схантить к себе человека из топов.
- Я засветился в топах ERC3 и ищу интересные проекты
Давайте структурируем и ускорим этот процесс. Топы тут, а отмечаемся в комментариях к этому посту.
Зачем? Так проще и быстрее. Да и чем больше людей найдут интересный новый проект по результатам ERC3, тем больше людей захочет участвовать в ERC4!
Ваш, @llm_under_hood 🤗
PS: После хантингов могут начинаться переезды, обустройства на новом месте и прочие отвлекающие вещи. А в итоге топовый эксперт выбывает из жизни коммьюнити на месяцы. Мы это уже проходили в прошлых раундах ERC, поэтому давайте побыстрее уж! :)
- Я хочу схантить к себе человека из топов.
- Я засветился в топах ERC3 и ищу интересные проекты
Давайте структурируем и ускорим этот процесс. Топы тут, а отмечаемся в комментариях к этому посту.
Зачем? Так проще и быстрее. Да и чем больше людей найдут интересный новый проект по результатам ERC3, тем больше людей захочет участвовать в ERC4!
Ваш, @llm_under_hood 🤗
PS: После хантингов могут начинаться переезды, обустройства на новом месте и прочие отвлекающие вещи. А в итоге топовый эксперт выбывает из жизни коммьюнити на месяцы. Мы это уже проходили в прошлых раундах ERC, поэтому давайте побыстрее уж! :)
❤34😁21🔥14🤔9🤝4⚡2🤯1💯1
Обновление нашей платформы тестирования AI агентов - видно больше разных архитектур
(1) В live leaderboards теперь показывается одно лучшее решение на аккаунт (чтобы больше команд показать, например ERC3-PROD)
(2) В frozen leaderboard я добавил больше архитектур агентов (отдельная благодарность командам, которые прислали их) и ultimate leaderboard. В последнем показывается самое лучше решение команды за время соревнования, без учета флагов и очередности.
Дальше я буду работать над публичным стандартом для такой платформы, чтобы всем было проще добавлять свои визуализации и интеграции, тестировать своих агентов. Да и командам, которые начали вайб-кодить копии платформы для внутреннего тестирования своих агентов, будет проще - можно будет докинуть этот стандарт в контекст.
В идеале, хочется отразить все кейсы AI внедрений нашего канала (см оглавление) в публичных бенчмарках на такой платформе, что позволит любому попробовать свои силы в решении продуктовых задач, которые актуальны сегодня в мире.
Как думаете, потянем такое вместе?
Ваш, @llm_under_hood 🤗
(1) В live leaderboards теперь показывается одно лучшее решение на аккаунт (чтобы больше команд показать, например ERC3-PROD)
(2) В frozen leaderboard я добавил больше архитектур агентов (отдельная благодарность командам, которые прислали их) и ultimate leaderboard. В последнем показывается самое лучше решение команды за время соревнования, без учета флагов и очередности.
Дальше я буду работать над публичным стандартом для такой платформы, чтобы всем было проще добавлять свои визуализации и интеграции, тестировать своих агентов. Да и командам, которые начали вайб-кодить копии платформы для внутреннего тестирования своих агентов, будет проще - можно будет докинуть этот стандарт в контекст.
В идеале, хочется отразить все кейсы AI внедрений нашего канала (см оглавление) в публичных бенчмарках на такой платформе, что позволит любому попробовать свои силы в решении продуктовых задач, которые актуальны сегодня в мире.
Как думаете, потянем такое вместе?
Ваш, @llm_under_hood 🤗
🔥54👍15❤9⚡2😱1🙏1
Forwarded from Алексей Остриков
Да, мы сделали это! Более 600 баксов спущено на erc3-prod. Почти треть тулов переписано за вчера и сегодня. Написана пачка кастомных тулов, без которых вообще невозможно попадание за 95+. Огромное количество правок, огромное количество откатов назад на предыдущие версии промта с изучением того, что пошло не так. И еще немножечко магии, потому что без удачи было совершенно невозможно это пройти. Короче, сотка взята. Это невероятно. Я даже не представляю, как можно это пройти, не используя сильные модели. Ринат, от души спасибо за этот тотализатор. Оно того стоило. Кайф
🔥85🤯17❤8👏7👍4🥰3😱1
Как провести новогодние праздники с пользой?
(1) Прочитать ВОТ этот список AI кейсов с разборами архитектур и все комментарии. Если хотите структурного и упорядоченного подхода, то у меня есть курс c разбором продуктовых кейсов и паттернов.
(2) Проверить навыки и прокачать AI агента для решения корпоративных задач ERC3-PROD (пример агента, описания архитектур-победителей закрытого раунда тут - жмем на ▶, топовые архитектуры обсуждают в чате, уже два решения достигли 100 в открытом режиме).
А в следующем году я разверну платформу заново, с поддержкой более широкого спектра задач на базе кейсов с LLM под капотом (в том числе data extraction и AI+Coding)
(3) Обновить свои профессиональные профили (например, LinkedIn, Github или свой сайт), чтобы можно было добавить ссылки на них из платформы, чтобы стало возможным такое.
(4) Хорошо и дружно отпраздновать с близкими и родными!
Ваш, @llm_under_hood 🤗
(1) Прочитать ВОТ этот список AI кейсов с разборами архитектур и все комментарии. Если хотите структурного и упорядоченного подхода, то у меня есть курс c разбором продуктовых кейсов и паттернов.
(2) Проверить навыки и прокачать AI агента для решения корпоративных задач ERC3-PROD (пример агента, описания архитектур-победителей закрытого раунда тут - жмем на ▶, топовые архитектуры обсуждают в чате, уже два решения достигли 100 в открытом режиме).
А в следующем году я разверну платформу заново, с поддержкой более широкого спектра задач на базе кейсов с LLM под капотом (в том числе data extraction и AI+Coding)
(3) Обновить свои профессиональные профили (например, LinkedIn, Github или свой сайт), чтобы можно было добавить ссылки на них из платформы, чтобы стало возможным такое.
(4) Хорошо и дружно отпраздновать с близкими и родными!
Ваш, @llm_under_hood 🤗
🔥51🎄32❤11👍5