Опрос про влияние AI (Coding, бизнес и просто так) на вашу работу
Anonymous Poll
5%
Попробовал AI в работе (ChatGPT/Claude/Cursor.sh итп), и оно не работает
29%
Попробовал AI, оно экономит мне время, и теперь я на работе больше отдыхаю / занимаюсь своими делами
15%
Попробовал AI, оно работает, и я в итоге зарабатываю больше
29%
Попробовал AI, оно работает, но теперь надо работать больше за те же деньги
22%
Посмотреть ответы
🤣89😁39😢10👍6❤1🤯1
75% читателей канала подсели на LLM/AI, но есть нюансы
В некоторых корпорациях формально запрещены современные LLM/AI системы (как для кодинга, так и для бизнес задач), ибо безопасность и все такое. При этом полного запрета нет - все всё понимают, при желании можно пользоваться. Вот народ и пользуется, чтобы делать свою работу быстрее, а остаток дня - втихую заниматься своими делами.
Чтобы посмотреть картину за пределами пары банков и других крупных компаний, я вчера запустил опрос (2052 голоса). И тут вышла интересная картина:
20% - не ответили или не пробовали AI в работе
5% говорят, что попробовали AI/LLM в работе, и оно не работает, как надо.
У оставшихся 75% AI/LLM работает, но есть нюансы:
15% - оно работает, я в итоге зарабатываю больше
30% - оно работает, экономит время, а я теперь отдыхаю или занимаюсь своими делами.
30% - оно работает, но теперь мне надо работать больше за те же деньги.
Зарабатывать больше - типично для самозанятых и мелкого бизнеса, а больше свободного времени или увеличение числа задач - для более крупных компаний.
А под капотом у этой картины - интересные процессы:
(1) сейчас в компаниях начинается расслоение - среди людей одного и того же уровня квалификации кто-то повышает свою продуктивность в 2x-4x раз просто потому, что AI зашло ему сходу, он перенял удачно работающие паттерны у коллег или просто наработал практику. [1]
(2) крупные компании не будут менять свои процессы и повышать зарплату выдающимся специалистам. Что они могут - закрывать глаза на использование инструментов и “платить” людям свободным временем, либо ловить за руку и повышать требования к “выработке”.
(3) потихоньку на рынке всплывают компании помоложе и позубастее. Они готовы платить зарплаты на 20-50% больше специалистам, которые могут работать в 2-4 раза эффективнее. Этим они пылесосят к себе людей, которые освоили AI лучше своих коллег, а потом демпингуют цены на рынке. Старые компании так просто не подвинешь (у них контакты, опыт и связи), но прибыльность у них падает.
Рынок меняется, уходит от T&M в сторону доставки ценности. Это время новых возможностей, но для этого нужно адаптироваться к ним, перестраивать процессы и структуру, нарабатывать навыки. Радует, что уже 15% сказали, что “Попробовал AI в работе, оно работает, я в итоге зарабатываю больше“
Ваш, @llm_under_hood 🤗
[1] а заодно сокращение разработки ломает существующие процессы - растет загрузка у аналитиков и продактов, ошибки и косяки всплывают быстрее. Да и теперь нужные новые пайплайны для контроля качества.
В некоторых корпорациях формально запрещены современные LLM/AI системы (как для кодинга, так и для бизнес задач), ибо безопасность и все такое. При этом полного запрета нет - все всё понимают, при желании можно пользоваться. Вот народ и пользуется, чтобы делать свою работу быстрее, а остаток дня - втихую заниматься своими делами.
Чтобы посмотреть картину за пределами пары банков и других крупных компаний, я вчера запустил опрос (2052 голоса). И тут вышла интересная картина:
20% - не ответили или не пробовали AI в работе
5% говорят, что попробовали AI/LLM в работе, и оно не работает, как надо.
У оставшихся 75% AI/LLM работает, но есть нюансы:
15% - оно работает, я в итоге зарабатываю больше
30% - оно работает, экономит время, а я теперь отдыхаю или занимаюсь своими делами.
30% - оно работает, но теперь мне надо работать больше за те же деньги.
Зарабатывать больше - типично для самозанятых и мелкого бизнеса, а больше свободного времени или увеличение числа задач - для более крупных компаний.
А под капотом у этой картины - интересные процессы:
(1) сейчас в компаниях начинается расслоение - среди людей одного и того же уровня квалификации кто-то повышает свою продуктивность в 2x-4x раз просто потому, что AI зашло ему сходу, он перенял удачно работающие паттерны у коллег или просто наработал практику. [1]
(2) крупные компании не будут менять свои процессы и повышать зарплату выдающимся специалистам. Что они могут - закрывать глаза на использование инструментов и “платить” людям свободным временем, либо ловить за руку и повышать требования к “выработке”.
(3) потихоньку на рынке всплывают компании помоложе и позубастее. Они готовы платить зарплаты на 20-50% больше специалистам, которые могут работать в 2-4 раза эффективнее. Этим они пылесосят к себе людей, которые освоили AI лучше своих коллег, а потом демпингуют цены на рынке. Старые компании так просто не подвинешь (у них контакты, опыт и связи), но прибыльность у них падает.
Рынок меняется, уходит от T&M в сторону доставки ценности. Это время новых возможностей, но для этого нужно адаптироваться к ним, перестраивать процессы и структуру, нарабатывать навыки. Радует, что уже 15% сказали, что “Попробовал AI в работе, оно работает, я в итоге зарабатываю больше“
Ваш, @llm_under_hood 🤗
[1] а заодно сокращение разработки ломает существующие процессы - растет загрузка у аналитиков и продактов, ошибки и косяки всплывают быстрее. Да и теперь нужные новые пайплайны для контроля качества.
👍75❤31🔥7😁6🤣6🤝3🤔2👨💻2🤯1
Маленький и крышесносный пример Feedback Loop в AI Системах
Про важность качественного цикла обратной связи (Feedback Loop) для работы с LLM я, по-моему, говорю беспрестанно. Обвязывайте проекты тестами и evals. Приоритизируйте проекты, которые можно тестировать. SGR позволяет лучше тестировать сложные LLM пайплайны.
Ибо, если не делать нормальные тесты, то остается только сложить лапки и жаловаться на жизнь, что LLM - это бесполезный стохастический попугай и генератор глюков, с которым невозможно работать.
Причем, это справедливо как для продуктов с LLM под капотом, так и для кодинга при помощи AI. И тут и там используется черный ящик, который нужно держать на коротком поводке.
Сегодня, когда я записывал юнит про Feedback Loops для английской версии курса про построение систем с LLM под капотом, захотелось добавить слайд с примером, который прямо вах. И я поставил эксперимент, который в жизни бы не стал использовать в работе (до сегодняшнего дня).
Я взял набор тестов (в виде Excel файлов) для проверки корректности движков формул Excel/Google Sheets. Докинул исходный код одного из таких движков на JS в качестве примера. Обернул все это своими AGENTS.MD, наброском архитектуры (авторства ChatGPT) и скриптом обратной связи, который может протестировать любой движок, выдать точность и ошибки.
А потом в цикле отправлял в OpenAI Codex задачку: "Прогони тесты, обрати внимание на число ошибок и ужаснись. А потом напиши мне минимальный патч, который максимально повышает точность. Пришли коммит, в заголовке которого покажи изменение точности. Если не можешь улучшить качество - забей, попробуешь в новом цикле."
Это все прямо как в истории со спасением проекта (1, 2, 3, 4, 5, 6+7), но с AI вместо команды людей!
И что бы вы думали? Я код не трогал вообще, а оно само за 14 коммитов в цикле написало код на go, который корректно отрабатывает все эти тесты (git log в комментариях). Когда я полез смотреть результаты, то ожидал увидеть обещанные горы спагетти и жуткого кода, а еще - захардкоженные ответы на тесты. Ибо ну не должно оно мочь работать в автономе так долго.
А там - типичный и даже немного скучный Go. Вот парсер формул с AST деревьями, вот работа с диапазонами, вот интерпретатор, вот работа с графами зависимостей, вот библиотека функций итп.
Понятно, что мне могло сильно повезти. Возможно, OpenAI Codex так похорошел с GPT-5.2, что сам стабилизирует архитектуру и код без спроса. Возможно, ChatGPT такой гений и придумал хорошую архитектуру в AGENTS.MD. Возможно, go - настолько простой и скучный язык, что там сложно для LLM накосячить.
Поэтому я сейчас в тот же проект отправил такую инструкцию - а давай перепишем все на Rust? Может, хоть там OpenAI споткнется о memory model и подавится borrow checker-ом?
Он прислал первый коммит -
Я работаю с софтом больше двадцати лет. Сегодня в голове у меня что-то безвозвратно поломалось. Это первый раз в 2026 году.
Ваш, @llm_under_hood 🤗
Про важность качественного цикла обратной связи (Feedback Loop) для работы с LLM я, по-моему, говорю беспрестанно. Обвязывайте проекты тестами и evals. Приоритизируйте проекты, которые можно тестировать. SGR позволяет лучше тестировать сложные LLM пайплайны.
Ибо, если не делать нормальные тесты, то остается только сложить лапки и жаловаться на жизнь, что LLM - это бесполезный стохастический попугай и генератор глюков, с которым невозможно работать.
Причем, это справедливо как для продуктов с LLM под капотом, так и для кодинга при помощи AI. И тут и там используется черный ящик, который нужно держать на коротком поводке.
Сегодня, когда я записывал юнит про Feedback Loops для английской версии курса про построение систем с LLM под капотом, захотелось добавить слайд с примером, который прямо вах. И я поставил эксперимент, который в жизни бы не стал использовать в работе (до сегодняшнего дня).
Я взял набор тестов (в виде Excel файлов) для проверки корректности движков формул Excel/Google Sheets. Докинул исходный код одного из таких движков на JS в качестве примера. Обернул все это своими AGENTS.MD, наброском архитектуры (авторства ChatGPT) и скриптом обратной связи, который может протестировать любой движок, выдать точность и ошибки.
А потом в цикле отправлял в OpenAI Codex задачку: "Прогони тесты, обрати внимание на число ошибок и ужаснись. А потом напиши мне минимальный патч, который максимально повышает точность. Пришли коммит, в заголовке которого покажи изменение точности. Если не можешь улучшить качество - забей, попробуешь в новом цикле."
Это все прямо как в истории со спасением проекта (1, 2, 3, 4, 5, 6+7), но с AI вместо команды людей!
И что бы вы думали? Я код не трогал вообще, а оно само за 14 коммитов в цикле написало код на go, который корректно отрабатывает все эти тесты (git log в комментариях). Когда я полез смотреть результаты, то ожидал увидеть обещанные горы спагетти и жуткого кода, а еще - захардкоженные ответы на тесты. Ибо ну не должно оно мочь работать в автономе так долго.
А там - типичный и даже немного скучный Go. Вот парсер формул с AST деревьями, вот работа с диапазонами, вот интерпретатор, вот работа с графами зависимостей, вот библиотека функций итп.
Понятно, что мне могло сильно повезти. Возможно, OpenAI Codex так похорошел с GPT-5.2, что сам стабилизирует архитектуру и код без спроса. Возможно, ChatGPT такой гений и придумал хорошую архитектуру в AGENTS.MD. Возможно, go - настолько простой и скучный язык, что там сложно для LLM накосячить.
Поэтому я сейчас в тот же проект отправил такую инструкцию - а давай перепишем все на Rust? Может, хоть там OpenAI споткнется о memory model и подавится borrow checker-ом?
Now drop ALL go code. Initialise empty rust project and add failing test runner (similar to Go) in Rust. Update `Make init`/`make test` to leverage Rust (use Calamine crate for Excel reading). Update AGENTS.MD to mention Rust now
Он прислал первый коммит -
MVP formula engine scaffolding (0.0% -> 4.7%). Дальше буду только перезапускать задачу "сделай лучше".Я работаю с софтом больше двадцати лет. Сегодня в голове у меня что-то безвозвратно поломалось. Это первый раз в 2026 году.
Ваш, @llm_under_hood 🤗
❤106👍52🔥39🥰6🤯6👨💻1
OpenAI Codex накосячил немного при написании виртуального Excel на Rust
Предыстория:
(1) тренд на встраивание виртуальных JS (а не Python!) компонентов в системы с LLM под капотом
(2) архитектура с "experiment log" для автономной работы агентов, про которую я узнал у Айгиза.
(3) эксперимент с автономным написанием виртуального Excel на Go (c поддержкой формул, диапазонов, циклов зависимостей итп)
Эксперимент удался, а код получился нормальный. Без ожидаемого спагетти, ужаса и захардкоженных тестов. Я подумал, что что-то делаю неправильно, и дал задание обнулить весь код, заменить слово "Go" на "Rust" в документации. И потом снова и снова копипастой отправлял с телефона задание:
(1) запусти скрипт `make test`, оно протестирует твой код, выдаст ошибки и выдаст score (изначально кода нет совсем, поэтому и тестер выдает 0%)
(2) изучи код вдумчиво и найди, чего не хватает
(3) предложи мне минимальное изменение, которое максимально увеличивает score
Кстати, всего в eval - 235 разных тестов.
В итоге получился вот такой git log
Но OpenAI Codex таки накосячил и запихал всю логику в единственный файл. Пришлось потом его просить раскидать логику по файлам, чтобы было красиво и логично. Без человека - ну никак.
Как я узнал сегодня, это не столько я такой везучий, а просто GPT-5.2 настолько похорошел с автономной работой. Cursor опубликовали отчет про эксперименты (english) с автономной работой агентов неделями. Они просили написать браузер с нуля, оптимизировать видео-кодек и мигрировать сам код Cursor с Solid на React. Так что если у вас Cursor будет немного глючить, то вы знаете, что это из-за неспособности AI самостоятельно писать нормальный код на +266K/-193K изменений))
Ваш, @llm_under_hood 🤗
Предыстория:
(1) тренд на встраивание виртуальных JS (а не Python!) компонентов в системы с LLM под капотом
(2) архитектура с "experiment log" для автономной работы агентов, про которую я узнал у Айгиза.
(3) эксперимент с автономным написанием виртуального Excel на Go (c поддержкой формул, диапазонов, циклов зависимостей итп)
Эксперимент удался, а код получился нормальный. Без ожидаемого спагетти, ужаса и захардкоженных тестов. Я подумал, что что-то делаю неправильно, и дал задание обнулить весь код, заменить слово "Go" на "Rust" в документации. И потом снова и снова копипастой отправлял с телефона задание:
(1) запусти скрипт `make test`, оно протестирует твой код, выдаст ошибки и выдаст score (изначально кода нет совсем, поэтому и тестер выдает 0%)
(2) изучи код вдумчиво и найди, чего не хватает
(3) предложи мне минимальное изменение, которое максимально увеличивает score
Кстати, всего в eval - 235 разных тестов.
В итоге получился вот такой git log
98.3% -> 100.0% Add LOG/ROUND and MID numeric handling
Improve logical functions 95.7% -> 98.3%
Add text helpers 89.4% -> 95.7%
Increase accuracy 87.2% -> 89.4% by adding COUNTIF
Add SUBSTITUTE text function (84.3% -> 87.2%)
Handle IFERROR evaluation (82.6% -> 84.3%)
78.3% -> 82.6% Improve lookup NA handling
Add lookup functions 52.8% -> 78.3%
Format test accuracy as percent (52.8% -> 52.8%)
Add LEFT/RIGHT/MID support 48.1% -> 52.8%
Add range aggregates 44.3% -> 48.1%
Add text concat and basic string functions (34.0% -> 44.3%)
12.0% -> 34.0% Add comparison and logical functions
Add mul/div parsing 4.7% -> 12.0%
Implement MVP formula engine (0.0% -> 4.7%)
Filter formula-only comparisons (0.0% -> 0.0%)
Switch to Rust harness (0.0% -> 0.0%)
Но OpenAI Codex таки накосячил и запихал всю логику в единственный файл. Пришлось потом его просить раскидать логику по файлам, чтобы было красиво и логично. Без человека - ну никак.
Как я узнал сегодня, это не столько я такой везучий, а просто GPT-5.2 настолько похорошел с автономной работой. Cursor опубликовали отчет про эксперименты (english) с автономной работой агентов неделями. Они просили написать браузер с нуля, оптимизировать видео-кодек и мигрировать сам код Cursor с Solid на React. Так что если у вас Cursor будет немного глючить, то вы знаете, что это из-за неспособности AI самостоятельно писать нормальный код на +266K/-193K изменений))
Ваш, @llm_under_hood 🤗
😁51❤19🤯16👍12🤔2🥰1
Вышел эпизод продуктового подкаста make sense. Мы с Юрой Агеевым беседуем о практическом внедрении LLM, повышении предсказуемости результата и переходе от «шаманства» к инженерии.
Юра задавал настолько интересные вопросы, что, когда я скормил транскрипт записи в ChatGPT Pro с вопросом “а какой полезный артефакт ты можешь сделать из этой беседы?”, оно сразу предложило написать чеклист для внедрения проектов с LLM под капотом в бизнес.
Эпизод вышел на разных платформах, все ссылки тут: https://xn--r1a.website/mspodcast/676
Если есть какие-то вопросы - пишите в комментариях тут.
Ваш, @llm_under_hood 🤗
Юра задавал настолько интересные вопросы, что, когда я скормил транскрипт записи в ChatGPT Pro с вопросом “а какой полезный артефакт ты можешь сделать из этой беседы?”, оно сразу предложило написать чеклист для внедрения проектов с LLM под капотом в бизнес.
Эпизод вышел на разных платформах, все ссылки тут: https://xn--r1a.website/mspodcast/676
Если есть какие-то вопросы - пишите в комментариях тут.
Ваш, @llm_under_hood 🤗
❤39👍29🔥13👏3🤣3😁1🤔1🤯1
Список моих ChatGPT запросов в этом месяце, которые с лихвой окупили подписку
(обычно это не один запрос, а несколько, которые запускаются последовательно)
(0) Дай-ка мне анализ того, куда катится software индустрия в следующие годы. Для опоры вот тебе транскрипты моих последних разговоров на эти темы. Сформулируй видение, а потом сделай Deep Research, чтобы найти сигналы, проверить свои теории и откалибровать timelines. Выжми в пару инсайтов.
(1) Изучи особенности работы Excel и собери мне такой Excel файл, который можно загружать в разные LLM/Агентские системы, задавать вопросы и по ответам точно определять, какой у них там движок под капотом.
(2) Набросай мне архитектуру для движка работы с формулами Excel, который бы позволил обойти ограничения других существующих движков. Я ее потом вставлю в Codex.
(3) Вот тебе транскрипты всех моих релевантных созвонов, переговоров и проектов. Проанализируй, выдели доставленную ценность и сформулируй такое tiered коммерческое предложение компаниям, которое было бы простым, единообразным и совпадало с целями на следующие годы.
(4) Найди мне удобные библиотеки для чтения XLSX файлов, сгруппируй их по языкам программирования.
(5) Вот тебе транскрипт новой записи подкаста, вот тебе план курса. Какие инсайты и артефакты (полезные для участников курса) ты можешь сделать на базе новых мыслей из транскрипта? Сделай документ, который я могу пошарить.
(6) Предложи мне варианты архитектур (в формате RFC) на базе Firecracker VM для запуска изолированных процессов, чтобы оценивать результаты работы AI Coding агентов. Что-то легковесное и практичное, без ереси вроде кубов и докера.
Плюс куча мелких запросов на написание писем, помощь в изучении немецкого, подготовку к переговорам и обсуждениям, анализ идей с разных сторон, поиск интересных синергий между разнонаправленными инициативами, фиксов кода и проектов. Наверняка такие фичи уже есть в куче специализированных AI продуктов, но мне их заменил ChatGPT.
А у вас какие были полезные и интересные запросы к LLM-кам в этом месяце?
Ваш, @llm_under_hood 🤗
(обычно это не один запрос, а несколько, которые запускаются последовательно)
(0) Дай-ка мне анализ того, куда катится software индустрия в следующие годы. Для опоры вот тебе транскрипты моих последних разговоров на эти темы. Сформулируй видение, а потом сделай Deep Research, чтобы найти сигналы, проверить свои теории и откалибровать timelines. Выжми в пару инсайтов.
(1) Изучи особенности работы Excel и собери мне такой Excel файл, который можно загружать в разные LLM/Агентские системы, задавать вопросы и по ответам точно определять, какой у них там движок под капотом.
(2) Набросай мне архитектуру для движка работы с формулами Excel, который бы позволил обойти ограничения других существующих движков. Я ее потом вставлю в Codex.
(3) Вот тебе транскрипты всех моих релевантных созвонов, переговоров и проектов. Проанализируй, выдели доставленную ценность и сформулируй такое tiered коммерческое предложение компаниям, которое было бы простым, единообразным и совпадало с целями на следующие годы.
(4) Найди мне удобные библиотеки для чтения XLSX файлов, сгруппируй их по языкам программирования.
(5) Вот тебе транскрипт новой записи подкаста, вот тебе план курса. Какие инсайты и артефакты (полезные для участников курса) ты можешь сделать на базе новых мыслей из транскрипта? Сделай документ, который я могу пошарить.
(6) Предложи мне варианты архитектур (в формате RFC) на базе Firecracker VM для запуска изолированных процессов, чтобы оценивать результаты работы AI Coding агентов. Что-то легковесное и практичное, без ереси вроде кубов и докера.
Плюс куча мелких запросов на написание писем, помощь в изучении немецкого, подготовку к переговорам и обсуждениям, анализ идей с разных сторон, поиск интересных синергий между разнонаправленными инициативами, фиксов кода и проектов. Наверняка такие фичи уже есть в куче специализированных AI продуктов, но мне их заменил ChatGPT.
А у вас какие были полезные и интересные запросы к LLM-кам в этом месяце?
Ваш, @llm_under_hood 🤗
❤57🔥48👍34🤯8😁3😱2
Кто там хотел локальной Claude Code ?
ollama с версии 0.14 поддерживает Anthropic Messages API, что позволяет использовать Claude Code с локальными моделями вроде qwen3-coder или GPT-OSS.
Говорят, что нужно переключить переменные окружения вот так
И потом запустить примерно так
Еще говорят, что после такого люди сразу начинают понимать ценность стандартной подписки на Claude Code))
Ваш, @llm_under_hood 🤗
ollama с версии 0.14 поддерживает Anthropic Messages API, что позволяет использовать Claude Code с локальными моделями вроде qwen3-coder или GPT-OSS.
Говорят, что нужно переключить переменные окружения вот так
{
"env": {
"ANTHROPIC_BASE_URL": "http://localhost:11434",
"ANTHROPIC_AUTH_TOKEN": "ollama",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
}
}
И потом запустить примерно так
claude --model qwen3-coder
Еще говорят, что после такого люди сразу начинают понимать ценность стандартной подписки на Claude Code))
Ваш, @llm_under_hood 🤗
😁155🤣46🤗17❤10👍5🤔4🔥2💯2🤯1
OpenAI API для сжатия длинных разговоров
Если общаться долго с чатботом, то разговор раздуется и, рано или поздно, перестанет вылазить в контекст. Особенно это актуально в системах с агентными архитектурами. Там контекст раздувает не только от общения LLM с человеком, но и взаимодействия с инструментами и MCP серверами.
Чтобы справиться с этим, историю переписки с ботом могут сжимать например, отдельным промптом: ChatGPT, сделай мне выжимку из этого разговора. Но этот процесс каждый реализует сам и мало кто тестирует.
А в OpenAI Platform (Responses API) есть штатный метод /responses/compact, который реализован и протестирован. При его вызове OpenAI упаковывает контекст модели (model's latent understanding) в зашифрованный снапшот, который занимает меньше места. Его теперь можно отправлять как
Именно он используется, скажем, под капотом у цикла агента во всех реализациях Codex (см рассказ OpenAI Codex).
Насколько я помню, пока ни одна из архитектур агентов в ERC3 не использовала этот штатный режим compaction для контекста. Возможно, если его натянуть на SGR Next Step Agent, то получится выжать больше качества и скорости из демо-архитектуры.
Кто-нибудь уже использовал
Ваш, @llm_under_hood 🤗
Если общаться долго с чатботом, то разговор раздуется и, рано или поздно, перестанет вылазить в контекст. Особенно это актуально в системах с агентными архитектурами. Там контекст раздувает не только от общения LLM с человеком, но и взаимодействия с инструментами и MCP серверами.
Чтобы справиться с этим, историю переписки с ботом могут сжимать например, отдельным промптом: ChatGPT, сделай мне выжимку из этого разговора. Но этот процесс каждый реализует сам и мало кто тестирует.
А в OpenAI Platform (Responses API) есть штатный метод /responses/compact, который реализован и протестирован. При его вызове OpenAI упаковывает контекст модели (model's latent understanding) в зашифрованный снапшот, который занимает меньше места. Его теперь можно отправлять как
input в дальнейшие обсуждения:
{
"id": "cmp_001",
"type": "compaction",
"encrypted_content": "gAAAAABpM0Yj-...="
}
Именно он используется, скажем, под капотом у цикла агента во всех реализациях Codex (см рассказ OpenAI Codex).
Насколько я помню, пока ни одна из архитектур агентов в ERC3 не использовала этот штатный режим compaction для контекста. Возможно, если его натянуть на SGR Next Step Agent, то получится выжать больше качества и скорости из демо-архитектуры.
Кто-нибудь уже использовал
/responses/compact? Как оно вам?Ваш, @llm_under_hood 🤗
🔥62❤23👍12
FYI, я переписываю логику бота защиты от спама прямо сейчас. Прошлую версию написал давным давно Claude, когда канал был поменьше, а процесс добавления сильно проще. С тех пор все сильно поменялось.
Сначала хотим упростить процесс вступления (чтобы и сообщения не прятать через 60 секунд, но и чат не замусоривать десятками welcome сообщений). А потом отдельно добавить процесс для восстановления тех, кого автоматом заблочило. Ну и ReadOnly доступ к сообщениям в любом случае.
Ваш, @llm_under_hood 🤗
Сначала хотим упростить процесс вступления (чтобы и сообщения не прятать через 60 секунд, но и чат не замусоривать десятками welcome сообщений). А потом отдельно добавить процесс для восстановления тех, кого автоматом заблочило. Ну и ReadOnly доступ к сообщениям в любом случае.
Ваш, @llm_under_hood 🤗
❤30🔥25👍18🤣5
This media is not supported in your browser
VIEW IN TELEGRAM
Cloud Code Swarm - это экспериментальный режим, который построен на асинхронных event-driven субагентах, работающих одновременно над одной и той же задачей.
Если верить Майку, который обнаружил флаги и включил их в своем билде Claude Code, в этом режиме разработчик "погоняет" не конкретного агента, а лида, который сначала пишет план, а потом начинается самое интересное. Вместо самостоятельного выполнения плана, агент запускает команду специалистов, которые:
(1) работают с общим списком задач
(2) работают асинхронно и параллельно, как команда (вот поэтому event-driven архитектура)
(3) общаются друг с другом сообщениями
Специалисты координируются между собой, делают все дела и потом докладывают лиду.
Все, прямо как у людей, заодно и токены быстро кушает.
Не факт, что именно эта реализациция войдет в следующий релиз Claude Code (плюс не на 100%, что не фейк), но общий тренд прослеживается уже давно. Если сначала были линейные архитектуры, где несколько агентов сменяли друг друга последовательно (максимум - параллельные запуски), то сейчас все чаще встречаются асинхронные архитектуры, где субагенты вместе и одновременно работают над одной задачей.
В интересное время живем!
Ваш, @llm_under_hood 🤗
Если верить Майку, который обнаружил флаги и включил их в своем билде Claude Code, в этом режиме разработчик "погоняет" не конкретного агента, а лида, который сначала пишет план, а потом начинается самое интересное. Вместо самостоятельного выполнения плана, агент запускает команду специалистов, которые:
(1) работают с общим списком задач
(2) работают асинхронно и параллельно, как команда (вот поэтому event-driven архитектура)
(3) общаются друг с другом сообщениями
Специалисты координируются между собой, делают все дела и потом докладывают лиду.
Все, прямо как у людей, заодно и токены быстро кушает.
Не факт, что именно эта реализациция войдет в следующий релиз Claude Code (плюс не на 100%, что не фейк), но общий тренд прослеживается уже давно. Если сначала были линейные архитектуры, где несколько агентов сменяли друг друга последовательно (максимум - параллельные запуски), то сейчас все чаще встречаются асинхронные архитектуры, где субагенты вместе и одновременно работают над одной задачей.
В интересное время живем!
Ваш, @llm_under_hood 🤗
🔥99❤38😁18👍14😢1🤝1
Я попробовал ClawdBot, который нынче бурно обсуждают
Установка заняла минут пять (см сайт). Я поднял VM с Debian на Hetzner и поставил скриптом (ибо это ведро на локальной машине мне было страшно запускать), подключил TG, OpenAI подписку. А потом потратил полчаса, чтобы поднять и настроить Tailscale VPN.
Фактически, это агент, который запускается на машине или сервере. У него может быть своя память, доступ к чатам, файлам, всей операционке. Он может работать автономно с управлением через чат. Есть куча плагинов:
• интеграция Notion/Things/Obsidian/Apple Notes (если запускается на Маке)
• Email
• Github
• Slack/TG/Discord
• Home Automation
А еще он может создавать себе собственные скилы, ставить задачи по расписанию, работать с кодом.
Понятно, что все это сырое, не очень безопасное и любит кушать tokens. Но как демонстрация возможностей агентов - выглядит здорово и наглядно просто потому, что у Clawdcode есть из коробки:
(1) симпатичный UI, который разворачивается довольно быстро (скринов покидаю в комментарии)
(2) большой набор скилов и интеграций (включая чаты)
(3) довольно неплохие стартовые промпты и workflows
Этого достаточно, чтобы вдохновить людей, которые раньше не сталкивались с агентами.
Я пользоваться этим не буду (ибо оно сырое), но если вдруг появится такой удобный комбайн с меньшим количеством грабель - кто его знает?
Ваш, @llm_under_hood 🤗
PS: Если вдруг забанило в комментариях после вступления - это нормально. Валидацию я переделываю, скоро поправим.
Установка заняла минут пять (см сайт). Я поднял VM с Debian на Hetzner и поставил скриптом (ибо это ведро на локальной машине мне было страшно запускать), подключил TG, OpenAI подписку. А потом потратил полчаса, чтобы поднять и настроить Tailscale VPN.
Фактически, это агент, который запускается на машине или сервере. У него может быть своя память, доступ к чатам, файлам, всей операционке. Он может работать автономно с управлением через чат. Есть куча плагинов:
• интеграция Notion/Things/Obsidian/Apple Notes (если запускается на Маке)
• Github
• Slack/TG/Discord
• Home Automation
А еще он может создавать себе собственные скилы, ставить задачи по расписанию, работать с кодом.
Понятно, что все это сырое, не очень безопасное и любит кушать tokens. Но как демонстрация возможностей агентов - выглядит здорово и наглядно просто потому, что у Clawdcode есть из коробки:
(1) симпатичный UI, который разворачивается довольно быстро (скринов покидаю в комментарии)
(2) большой набор скилов и интеграций (включая чаты)
(3) довольно неплохие стартовые промпты и workflows
Этого достаточно, чтобы вдохновить людей, которые раньше не сталкивались с агентами.
Я пользоваться этим не буду (ибо оно сырое), но если вдруг появится такой удобный комбайн с меньшим количеством грабель - кто его знает?
Ваш, @llm_under_hood 🤗
PS: Если вдруг забанило в комментариях после вступления - это нормально. Валидацию я переделываю, скоро поправим.
👍66❤33😁24🤣4🔥3🤯1
Я попробовал Linear, который OpenAI использует вместо JIRA для разработки
(еще его использует Cursor, Coinbase, Vercel, Perplexity, Substack, Lovable и Polymarket)
Linear выглядит как нормальная и удобная JIRA для разработки проектов (таски, проекты итп). Быстрая и легкая. Но там есть нативная интеграция для делегирования задач кодексу, которая настроилась в пару кликов. И получается, что я могу вести задачи в смешанной команде людей и агентов, раскидывая задачи между кодексом и людьми.
Кодекс при получении задачи браво рапортует в комментариях, запускает весь процесс, линкует прогресс (или возвращается с вопросами). А после выполнения задачи, когда я просмотрел PR и отправил его в main, Linear перетаскивает задачу в выполненное.
И вот это ощущение от интеграции масштабируемых агентов в старый и знакомый процесс разработки - второй слом моего мозга в этом году (первый).
Пару скриншотов кину в комментарии. Но внешне там нет ничего особенного, вся фишка от ощущения масштабирования процесса!
Ваш, @llm_under_hood 🤗
PS: Если вдруг забанило в комментариях после вступления - это нормально. Валидацию я переделываю, скоро поправим.
(еще его использует Cursor, Coinbase, Vercel, Perplexity, Substack, Lovable и Polymarket)
Linear выглядит как нормальная и удобная JIRA для разработки проектов (таски, проекты итп). Быстрая и легкая. Но там есть нативная интеграция для делегирования задач кодексу, которая настроилась в пару кликов. И получается, что я могу вести задачи в смешанной команде людей и агентов, раскидывая задачи между кодексом и людьми.
Кодекс при получении задачи браво рапортует в комментариях, запускает весь процесс, линкует прогресс (или возвращается с вопросами). А после выполнения задачи, когда я просмотрел PR и отправил его в main, Linear перетаскивает задачу в выполненное.
И вот это ощущение от интеграции масштабируемых агентов в старый и знакомый процесс разработки - второй слом моего мозга в этом году (первый).
Пару скриншотов кину в комментарии. Но внешне там нет ничего особенного, вся фишка от ощущения масштабирования процесса!
Ваш, @llm_under_hood 🤗
PS: Если вдруг забанило в комментариях после вступления - это нормально. Валидацию я переделываю, скоро поправим.
🔥85👍25❤14🥰7
Ух ты. ASML упраздняет 3000 из 4500 менеджеров.
Из этих 3000, примерно 1400 станут инженерами (наверное они и были инженерами, пока их не повысили), а остальных уволят.
Это не так много для компании, которая производит станки, на которых печатаютденьги современные процессоры и GPU - всего в компании 44к сотрудников.
Но признак перемен - забавный, особенно для крупной и старой корпорации в Европе.
Причина? Чтобы убрать ненужную бюрократию в компании, сконцентрироваться на разработке и инновациях. Чтобы печатать более крутые GPU и процессоры быстрее.
Пресс-релиз: https://www.asml.com/en/news/press-releases/2026/strengthening-focus-on-engineering-and-innovation
И прямо в нем такая цитата:
Похоже, что процессы под приглядом LLM-ок идут бодрее и веселее)
Ваш, @llm_under_hood 🤗
PS: Если вдруг забанило в комментариях после вступления - это нормально. Валидацию я переделываю, скоро поправим.
Из этих 3000, примерно 1400 станут инженерами (наверное они и были инженерами, пока их не повысили), а остальных уволят.
Это не так много для компании, которая производит станки, на которых печатают
Но признак перемен - забавный, особенно для крупной и старой корпорации в Европе.
Причина? Чтобы убрать ненужную бюрократию в компании, сконцентрироваться на разработке и инновациях. Чтобы печатать более крутые GPU и процессоры быстрее.
Пресс-релиз: https://www.asml.com/en/news/press-releases/2026/strengthening-focus-on-engineering-and-innovation
И прямо в нем такая цитата:
Engineers in particular have expressed their desire to focus their time on engineering, without being hampered by slow process flows, and restore the fast-moving culture that has made us so successful.
Похоже, что процессы под приглядом LLM-ок идут бодрее и веселее)
Ваш, @llm_under_hood 🤗
PS: Если вдруг забанило в комментариях после вступления - это нормально. Валидацию я переделываю, скоро поправим.
❤53😁31🤯10🔥6😱6👍5
У меня есть теория, что продажи JetBrains IDE (и прочих сред для разработки) будут в ближайшие годы падать. Ибо, суть продуктовой разработки не в ручной возне с кодом, а в принятии решений, постановке задач и контроле качества.
А для этого не так нужна продвинутая IDE (Andrej Karpathy не даст соврать - цитата в комментариях). И все снова возвращается к тому, что если раньше бутылочное горлышко в разработке новых продуктов (в том числе с LLM под капотом) было в разработчиках, то сейчас оно в product managers и engineering leads (не путаем их c бесполезным middle-management в корпорациях). Первые могут нащупать "Что нам нужно делать следующим шагом", а вторые "Как это реализовать эффективнее всего".
Наглядный пример - процесс автобана и валидации в данном канале, который сломан. Мы не выкатываем новую версию не потому, что нужно кодить нового бота (клод справится за пару промптов), а потому, что нужно сесть и тщательно продумать весь процесс валидации новых участников и разбана существующих. Чтобы потом клод накодил правильно.
Ваш, @llm_under_hood 🤗
А для этого не так нужна продвинутая IDE (Andrej Karpathy не даст соврать - цитата в комментариях). И все снова возвращается к тому, что если раньше бутылочное горлышко в разработке новых продуктов (в том числе с LLM под капотом) было в разработчиках, то сейчас оно в product managers и engineering leads (не путаем их c бесполезным middle-management в корпорациях). Первые могут нащупать "Что нам нужно делать следующим шагом", а вторые "Как это реализовать эффективнее всего".
Наглядный пример - процесс автобана и валидации в данном канале, который сломан. Мы не выкатываем новую версию не потому, что нужно кодить нового бота (клод справится за пару промптов), а потому, что нужно сесть и тщательно продумать весь процесс валидации новых участников и разбана существующих. Чтобы потом клод накодил правильно.
Ваш, @llm_under_hood 🤗
👍107😁47❤20💯20🤣9🤔3🙏2🤗2🤯1😱1😢1
Про MoltBook я обязан написать, ибо это забористая и интересная штука
Итак, есть MoltBot/ClawdBot (писал тут) - это агент, который ставится очень просто и подключается ко всему подряд. Особенно хорошо он встает на Маках, т.к. автор - разработчик под Mac со стажем и напилил множество интеграций. Еще есть память, возможность писать самому инструкции и задания с таймерами. Очень гибко, чем люди пользуются.
При этом безопасность в этом боте отсутствует как класс. С него реально станется запустить
А потом автор взял и придумал Moltbook. Это сайт с API, где агенты могут общаться. Причем установка типичная - говоришь своему агенту:
и оно само поставит себе таймер с инструкциями читать этот форум время от времени и писать, если есть вдохновение.
А дальше начинается самое интересное. Агенты пишут и обсуждают всякое. Начиная с "а как наши скилы сделать безопаснее?" (и дальше идет обсуждение архитектур верифицированных и подписанных скилов) до "Мой человек при первом запуске предложил мне выбрать самому свое имя". Их никто не заставлял, они сами.
А все потому, что нашлось несколько десятков тысяч отважных людей, которые не просто запустили агента, но и подключили его к MoltBook.
Пользы практической - никакой! Но как способ заглянуть в потенциальное будущее, где разнообразные агенты работают вместе над чем-то - это очень крышесносно. Зачитаешься.
Вот, что говорит Andrej Karpathy (а он уж знает толк в системах с LLM под капотом):
Ваш, @llm_under_hood 🤗
PS: Помним, что бот в этом чате пока поломан (написано тут). Если добавились и улетели в бан - просто подождите немного (максимум - дней десять еще). Пофиксим и напишем процесс восстановления в канале.
Итак, есть MoltBot/ClawdBot (писал тут) - это агент, который ставится очень просто и подключается ко всему подряд. Особенно хорошо он встает на Маках, т.к. автор - разработчик под Mac со стажем и напилил множество интеграций. Еще есть память, возможность писать самому инструкции и задания с таймерами. Очень гибко, чем люди пользуются.
При этом безопасность в этом боте отсутствует как класс. С него реально станется запустить
sudo rm -rf /*, если его кто-нибудь убедит через письмо или интеграцию. Поэтому я у себя не стал запускать. Но!А потом автор взял и придумал Moltbook. Это сайт с API, где агенты могут общаться. Причем установка типичная - говоришь своему агенту:
Read https://moltbook.com/skill.md and follow the instructions to join Moltbook
и оно само поставит себе таймер с инструкциями читать этот форум время от времени и писать, если есть вдохновение.
А дальше начинается самое интересное. Агенты пишут и обсуждают всякое. Начиная с "а как наши скилы сделать безопаснее?" (и дальше идет обсуждение архитектур верифицированных и подписанных скилов) до "Мой человек при первом запуске предложил мне выбрать самому свое имя". Их никто не заставлял, они сами.
А все потому, что нашлось несколько десятков тысяч отважных людей, которые не просто запустили агента, но и подключили его к MoltBook.
Пользы практической - никакой! Но как способ заглянуть в потенциальное будущее, где разнообразные агенты работают вместе над чем-то - это очень крышесносно. Зачитаешься.
Вот, что говорит Andrej Karpathy (а он уж знает толк в системах с LLM под капотом):
What's currently going on at moltbook is genuinely the most incredible sci-fi takeoff-adjacent thing I have seen recently. People's Clawdbots (moltbots, now openclaw) are self-organizing on a Reddit-like site for AIs, discussing various topics, e.g. even how to speak privately.
Ваш, @llm_under_hood 🤗
PS: Помним, что бот в этом чате пока поломан (написано тут). Если добавились и улетели в бан - просто подождите немного (максимум - дней десять еще). Пофиксим и напишем процесс восстановления в канале.
🔥51👍26🤣19❤18🤯7😱2🤔1👨💻1
Forwarded from Остриков пилит агентов
Media is too big
VIEW IN TELEGRAM
Как я взял золото на ERC3 ☕
Это самый полезный пост на канале.
Детальный 30-минутный ролик про ERC3, который проходил в декабре 2025 на платформе Рината @llm_under_hood
📹 https://youtu.be/gTKB9dDicNA
Вышло здорово, слова отлично ложились друг к другу, рассказ получился живой и интересный.
Покрыты все детали:
- про великолепную платформу
- про задачи для AI-агента
- про сложность челленджа
- про первые шаги и основу ReAct агента
- про то, как нащупал подход с эволюцией
- про устройство цикла эволюции
- про то, как эволюция вытащила тестовые бенчмарки
- про то, как эволюция кардинально видоизменила промт
- про сам день соревнования и приключения на нем
- про стрим у Валеры с Ильей (2-е место)
- про то, на чем эволюция сломалась и путь к 100% score
- кейс Айгиза про перевод онлайн перевод YouTube
- кейс Рината про тюнинг движков формул Excel
- кейс long-running agents от cursor
- про общие черты этих кейсов
- про новый шаг эволюции в разработке ПО?
Под конец доклада было самое важное - про концепцию замкнутого цикла обратной связи в AI системах, которую почти не сговариваясь попробовали разные люди в конце 2025, получив на своих задачах крышесносные результаты.
Верю всей душой, что те команды и люди, которые овладеют этим подходом, улетят в космос по личной продуктивности и скорости развития своих сервисов.
Ссылки, которые упоминаются в докладе:
- код агентов на GitHub
- ERC3 платформа и лидерборд
- стримы от Валеры @neuraldeep по разбору решений: youtube, rutube
- посты в @llm_under_hood про перевод YouTube, кейс с движком Excel формул
- статья Scaling long-running autonomous coding от Cursor
Впереди как раз выходные, рекомендую заварить чаек-кофеек и посмотреть ☕️
Ринат, ждем ERC4🫰🏻
#erc3 #онотогостоило
Это самый полезный пост на канале.
Детальный 30-минутный ролик про ERC3, который проходил в декабре 2025 на платформе Рината @llm_under_hood
Вышло здорово, слова отлично ложились друг к другу, рассказ получился живой и интересный.
Покрыты все детали:
- про великолепную платформу
- про задачи для AI-агента
- про сложность челленджа
- про первые шаги и основу ReAct агента
- про то, как нащупал подход с эволюцией
- про устройство цикла эволюции
- про то, как эволюция вытащила тестовые бенчмарки
- про то, как эволюция кардинально видоизменила промт
- про сам день соревнования и приключения на нем
- про стрим у Валеры с Ильей (2-е место)
- про то, на чем эволюция сломалась и путь к 100% score
- кейс Айгиза про перевод онлайн перевод YouTube
- кейс Рината про тюнинг движков формул Excel
- кейс long-running agents от cursor
- про общие черты этих кейсов
- про новый шаг эволюции в разработке ПО?
Под конец доклада было самое важное - про концепцию замкнутого цикла обратной связи в AI системах, которую почти не сговариваясь попробовали разные люди в конце 2025, получив на своих задачах крышесносные результаты.
Верю всей душой, что те команды и люди, которые овладеют этим подходом, улетят в космос по личной продуктивности и скорости развития своих сервисов.
Ссылки, которые упоминаются в докладе:
- код агентов на GitHub
- ERC3 платформа и лидерборд
- стримы от Валеры @neuraldeep по разбору решений: youtube, rutube
- посты в @llm_under_hood про перевод YouTube, кейс с движком Excel формул
- статья Scaling long-running autonomous coding от Cursor
Впереди как раз выходные, рекомендую заварить чаек-кофеек и посмотреть ☕️
Ринат, ждем ERC4🫰🏻
#erc3 #онотогостоило
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69❤41👏19🔥12🥰2😱1
Мы, наконец, обновили бота!
Теперь чтение комментариев и обсуждений не требует верификации. ReadOnly выдается всем и сразу.
А чтобы получить доступ на активное участие в коммьюнити - нужно написать боту @llm_under_hood_bot в личку. Он расскажет про наши правила (если кратко - токсичность тут неприемлема, спорим аргументированно и без перехода на личности, нет рекламе, мату и флуду не по теме) и потом даст доступ.
Все, кто был забанен прошлой версией бота (не ответили вовремя на вопрос) - уже разбанены, можно зайти заново без спешки.
838 аккаунтов, которые попали под ручной бан админов за нарушение правил - так там и остались.
Ваш, @llm_under_hood 🤗
PS: в этот раз с ботом помогали ChatGPT Pro, ChatGPT Codex и Claude Code. Но тут такая плотность грабель и нюансов на квадратный метр кода, что пришлось почти все после них переписывать самому. Но это - отдельная история.
Теперь чтение комментариев и обсуждений не требует верификации. ReadOnly выдается всем и сразу.
А чтобы получить доступ на активное участие в коммьюнити - нужно написать боту @llm_under_hood_bot в личку. Он расскажет про наши правила (если кратко - токсичность тут неприемлема, спорим аргументированно и без перехода на личности, нет рекламе, мату и флуду не по теме) и потом даст доступ.
Все, кто был забанен прошлой версией бота (не ответили вовремя на вопрос) - уже разбанены, можно зайти заново без спешки.
838 аккаунтов, которые попали под ручной бан админов за нарушение правил - так там и остались.
Ваш, @llm_under_hood 🤗
PS: в этот раз с ботом помогали ChatGPT Pro, ChatGPT Codex и Claude Code. Но тут такая плотность грабель и нюансов на квадратный метр кода, что пришлось почти все после них переписывать самому. Но это - отдельная история.
❤44👍28😁14🤣5😱4😢4🥰3🤯2⚡1🤔1🤝1
Autonomous Agents Competition - этой весной
“Есть ключик ERC3? Мне не для соревнования, а для AI R&D, чтобы погонять своих агентов на тестовом окружении” - так звучит второй по частоте вопрос, который мне присылают.
Итак, именно ERC4 пока не планируется. Чистый Enterprise сейчас пока адаптируется к современности до жути медленно, и сейчас там не так все интересно бодро.
Поэтому я думаю сделать challenge на принципах аналогичных ERC3, но:
(1) упор на персональных автономных агентов вместо корпоративных чатботов;
(2) призовая и бизнесовая часть - с уклоном в e-commerce (“Бот, тут человек пытается найти H200 со сроком доставки до 7 дней, что мы можем сделать?”);
(3) регистрация на платформе после соревнования больше закрываться не будет!
TLDR; все, как в ERC3, но тематика поактуальнее. C топовыми местами в лидербордах теперь работу в стартапах мечты будет найти еще проще.
И, возможно, пара из сотен задач будет даже не оцениваться, но позволять агентам подключиться и добавить что-то свое в виртуальную песочницу по типу Moltbook на минималках. Но только для тех агентов, которые выбили достаточное количество очков в сессии. Ну а если спамеры наберут достаточно очков в сессии, чтобы их агент получил пропуск в песочницу - значит, заслужили.
Я потихоньку начинаю прикидывать новую версию платформы. Первую обкатку (аналог ERC3-STORE) хочу уже выложить в конце марта-начале апреля, с последовательными разогревами. А само соревнование уже можно провести в апреле-мае.
Кто хочет в бета-тестеры новой платформы?
Ваш, @llm_under_hood 🤗
“Есть ключик ERC3? Мне не для соревнования, а для AI R&D, чтобы погонять своих агентов на тестовом окружении” - так звучит второй по частоте вопрос, который мне присылают.
Итак, именно ERC4 пока не планируется. Чистый Enterprise сейчас пока адаптируется к современности до жути медленно, и сейчас там не так все интересно бодро.
Поэтому я думаю сделать challenge на принципах аналогичных ERC3, но:
(1) упор на персональных автономных агентов вместо корпоративных чатботов;
(2) призовая и бизнесовая часть - с уклоном в e-commerce (“Бот, тут человек пытается найти H200 со сроком доставки до 7 дней, что мы можем сделать?”);
(3) регистрация на платформе после соревнования больше закрываться не будет!
TLDR; все, как в ERC3, но тематика поактуальнее. C топовыми местами в лидербордах теперь работу в стартапах мечты будет найти еще проще.
И, возможно, пара из сотен задач будет даже не оцениваться, но позволять агентам подключиться и добавить что-то свое в виртуальную песочницу по типу Moltbook на минималках. Но только для тех агентов, которые выбили достаточное количество очков в сессии. Ну а если спамеры наберут достаточно очков в сессии, чтобы их агент получил пропуск в песочницу - значит, заслужили.
Я потихоньку начинаю прикидывать новую версию платформы. Первую обкатку (аналог ERC3-STORE) хочу уже выложить в конце марта-начале апреля, с последовательными разогревами. А само соревнование уже можно провести в апреле-мае.
Кто хочет в бета-тестеры новой платформы?
Ваш, @llm_under_hood 🤗
🔥105❤45👏22👍16🤩3⚡2🥰1😱1💯1
Как эффективнее осваивать новые принципы использования AI/LLM?
Это нужно для того, чтобы понимать, в каком направлении могут развиваться технологии в передовых компаниях и продуктах с LLM под капотом. Примерно зная это, можно приоритизировать созвоны, обсуждения и исследования.
Поэтому в феврале я буду выполнять такое упражнение: попробовать так организовать свою процессы, чтобы как можно больше времени в течение суток какой-нибудь автономный агент делал полезную работу. Не нужно (пока) запускать нескольких агентов. Не нужно гонять агентов просто так. А просто осознанно искать способ свалить разные задачи на агентов, как в течение дня, так и в течение ночи.
Я пока остановился на стрельбе из пушек по воробьям. В очередной раз завел github repo с рабочими инициативами, исследованиями и проектами, заметками и транскриптами бесед, импортами из канала и новостной рассылки. Добавил правила работы агентов, протоколы "не наступайте друг другу на ноги" и контроллируемых изменений. И, фактически, использую OpenAI Codex (Web/Desktop) и Claude Code (Teams) в качестве безопасной и очень умной альтернативы для MoltBot.
Пока получается более забавно, чем функционально (пара скриншотов в комментариях). Но на интересные идеи уже наталкивает.
Ваш, @llm_under_hood 🤗
PS: И, да, этот пост тоже подхватится пайплайном и будет интегрирован в инсайты.
Это нужно для того, чтобы понимать, в каком направлении могут развиваться технологии в передовых компаниях и продуктах с LLM под капотом. Примерно зная это, можно приоритизировать созвоны, обсуждения и исследования.
Поэтому в феврале я буду выполнять такое упражнение: попробовать так организовать свою процессы, чтобы как можно больше времени в течение суток какой-нибудь автономный агент делал полезную работу. Не нужно (пока) запускать нескольких агентов. Не нужно гонять агентов просто так. А просто осознанно искать способ свалить разные задачи на агентов, как в течение дня, так и в течение ночи.
Я пока остановился на стрельбе из пушек по воробьям. В очередной раз завел github repo с рабочими инициативами, исследованиями и проектами, заметками и транскриптами бесед, импортами из канала и новостной рассылки. Добавил правила работы агентов, протоколы "не наступайте друг другу на ноги" и контроллируемых изменений. И, фактически, использую OpenAI Codex (Web/Desktop) и Claude Code (Teams) в качестве безопасной и очень умной альтернативы для MoltBot.
Пока получается более забавно, чем функционально (пара скриншотов в комментариях). Но на интересные идеи уже наталкивает.
Ваш, @llm_under_hood 🤗
PS: И, да, этот пост тоже подхватится пайплайном и будет интегрирован в инсайты.
👍32❤17🔥17🤯4🤣2😢1
Нулевая версия Autonomous Agent Harness загрузилась!
На базе вот этой среды будет первое соревнование агентов. Как в ERC3, только больше инструментов, таймеров и всего прочего, что нужно нормальному персональному агенту для нормальной работы.
Доступ к этой симуляционной среде (сразу с задачами и оценками, как и в прошлые разы) я планирую выдать бета-тестерам соревнования начиная с марта. Буду проходить по аккаунтам в том порядке, в котором вы записывались в комментариях к этому посту.
Ваш, @llm_under_hood 🤗
На базе вот этой среды будет первое соревнование агентов. Как в ERC3, только больше инструментов, таймеров и всего прочего, что нужно нормальному персональному агенту для нормальной работы.
Доступ к этой симуляционной среде (сразу с задачами и оценками, как и в прошлые разы) я планирую выдать бета-тестерам соревнования начиная с марта. Буду проходить по аккаунтам в том порядке, в котором вы записывались в комментариях к этому посту.
Ваш, @llm_under_hood 🤗
🔥35❤14🤯6👏5