Вайб-кодинг
49K subscribers
1.82K photos
710 videos
30 files
1.09K links
Авторский канал по ВАЙБ КОДИНГУ

Ссылка для друзей: https://xn--r1a.website/+ll3pbl442dNkZmYy

Cотрудничество: @devmangx

РКН: https://clck.ru/3RRVfk
Download Telegram
Вышел Harness-1 — поисковый агент на 20B параметров с довольно необычной идеей.

Вместо того чтобы заставлять модель хранить всю историю поиска в контексте, авторы решили вынести состояние наружу и обучить модель работать через специальный harness.

Получился агент на 20B параметров, который на длинных поисковых задачах конкурирует с гораздо более крупными моделями.

Обычно поисковые агенты работают по схеме:
поиск → чтение → поиск → чтение → всё подряд добавляется в контекст.

В итоге модель одновременно играет роль поисковика, памяти, заметочника, верификатора и библиотекаря.

Harness-1 разделяет эти задачи.

Модель по-прежнему решает, что искать, что читать, какие факты сохранять и что проверять. Но всё состояние поиска хранится во внешнем harness-слое.

Он ведёт рабочую память агента:

• найденные документы
• отобранные доказательства
• историю поиска
• связи между источниками
• результаты проверок
• дедупликацию и сжатие данных
• контроль контекстного бюджета

Интересно и то, что модель обучалась на сравнительно небольшом объёме данных: всего 899 SFT-траекторий и RL на 3453 запросах. Авторы считают, что значительную часть нужного поведения можно вынести в сам harness, а не зашивать в веса модели

Самый любопытный результат - переносимость. На новых бенчмарках, которых модель не видела во время обучения, прирост оказался ещё выше, чем на исходных задачах.

Paper : arxiv.org/abs/2606.02373
Code : https://github.com/pat-jj/harness-1
Model : https://huggingface.co/pat-jj/harness-1
HF Paper: https://huggingface.co/papers/2606.02373
3
Одно из исследовательских направлений, в которое сейчас вкладывается много ресурсов — continual learning (непрерывное обучение).

Несмотря на большое количество работ в этой области, прогресс в его измерении остаётся минимальным.

Поэтому возникает простой вопрос. Действительно ли специализированные системы памяти позволяют агентам учиться на собственном опыте?

Согласно Continual Learning Bench — пока нет. В шести экспертно валидированных предметных областях с общей обучаемой структурой обычный in-context learning часто работает лучше, чем навороченные системы памяти, которые специально проектировали для обучения на опыте.

CL-Bench вводит метрику gain, которая отделяет реальное обучение от уже имеющихся способностей модели, и показывает, что агенты часто либо переобучаются на недавних наблюдениях, либо не могут повторно использовать знания между разными экземплярами задач.

Если обычный ICL-бейзлайн обходит вашу архитектуру памяти, значит архитектура добавляет накладные расходы, а не обеспечивает обучение. 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
Время что-то собрать 🆗

Смотрите опенсорс коллекцию из 50+ практических туториалов

Внутри пошаговые проекты по:

• AI-агентам и мультиагентным системам
• RAG (Agentic, Vision и Local)
• MCP-агентам
• OCR-приложениям
• Голосовым AI-агентам
• и многому другому

Всё бесплатно, с исходниками и готовыми примерами. 🥩
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Небольшой лайфхак для пользователей Codex.

Если вам нужна автоматизация, не обязательно её делать вручную.

Можно просто попросить Codex. 😺

Например:

• напомнить о чём-то позже в этом же треде
• превратить текущую задачу в регулярную автоматизацию
• проверить существующие автоматизации и предложить улучшения
• удалить старые или бесполезные автоматизации

У меня, например, до сих пор висело несколько старых автоматизаций на GPT-5.4.

Просто попросил Codex их проверить и обновить.

Это проще, чем самому вспоминать, что вообще было настроено несколько месяцев назад.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Если у вас есть видеокарта с 8 ГБ VRAM, то у меня для вас хорошие новости.

Вчера чувак тестировал Unsloth Gemma 4 12B Q4_K_XL на карте с 8 ГБ VRAM.

Народ был в шоке и сразу спросил: А 25B+ модель на бюджетной карте вообще реально запустить?

Оказалось — да.

Чувак запускает локально огромную MoE-модель на 26 миллиардов параметров на обычном ноутбуке с RTX 4060 8 ГБ и 16 ГБ оперативки.

Что по скорости:
- стабильные 20 токенов/с на декодировании;
- скорость не проседает даже на длинных промптах;
- скормил ей промпт на 60k токенов - всё так же держит около 20 TPS.

По TTFT чудес нет. Огромный контекст нужно сначала обработать. Но при скорости prefill около 200 токенов/с ждать приходится недолго, пользоваться вполне комфортно.

И всё это без MTP. Главная причина — новые QAT-кванты Gemma 4 от Google. Файл весов unsloth gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf весит всего 13.2 ГБ, что для модели такого размера выглядит почти нереально.

Главный секрет — флаг -cmoe в llama.cpp. Он отправляет веса экспертов MoE в оперативную память, а GPU оставляет Attention и KV Cache. В результате VRAM не забивается под завязку, а скорость остаётся стабильной.

Флаги запуска:

-m "gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf" -cmoe -c 248000 -v


После запуска достаточно открыть веб-интерфейс на localhost и включить новый значок лампочки режима reasoning в поле ввода, чтобы наблюдать, как модель выполняет многошаговые рассуждения. 😒😒😒

А интеграция с Hermes Agent заняла буквально пару минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Грег Айзенберг выпустил подробный гайд по Hermes Desktop и агентам Hermes.

За 43 минуты вы узнаете про сессии, профили, артефакты, способы экономии на использовании модели и реальные кейсы по заработку и запуску стартапов с помощью Hermes-агентов.

Если уже сидите на Hermes, найдёте пару полезных фишек. Если ещё не запускали, это, наверное, лучший входной ролик.

Алекс Финн вообще считает, что Hermes уже обошёл OpenClaw.
«Сейчас это лучший способ использовать AI-агентов на своём компьютере».

Смотреть выпуск 😙
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI раздаёт до $50 000 в виде бесплатных API-кредитов. 👔

В чём условие? Ваши данные будут использоваться для обучения моделей.

Программа обмена данными:
→ 250 тыс. токенов в день для GPT-5.5
→ 2,5 млн токенов в день для mini-моделей
→ До 10 млн токенов в день на уровнях Tier 3–5

Перейдите в OpenAI Platform → Data Controls → Sharing.
Please open Telegram to view this post
VIEW IN TELEGRAM
«Каждый месяц напоминаю. Хватит писать промпты для кодинговых агентов вручную. Пора проектировать циклы, которые сами ставят задачи вашим агентам».

— Peter Steinberger 🚬

Последние 2 года мы давали агентам задачи по одной. Сделай лендинг. Напиши статью. Найди баг. Потом вручную запускаем следующий шаг. Сейчас появляется другой подход - agent looping.

Вместо того чтобы вести агента через каждый этап, вы создаёте цикл, который сам занимается исследованием задачи, планированием, выполнением работы, проверкой результата и повторными итерациями до достижения цели.

Looping не привязан к конкретной модели. Это схема работы, которую вы собираете сами. Запустить её может почти любой агентный фреймворк.

Самый простой вариант выглядит так:
- исследование задачи
- создание черновика
- проверка результата относительно цели
- исправление слабых мест
- повтор цикла до выполнения требований

Вы больше не пишете промпт для каждого шага. Агент сам проходит этот цикл столько раз, сколько нужно.

Следующий уровень fleet looping. Появляется агент-оркестратор. Он получает цель, разбивает её на части и раздаёт задачи специализированным агентам. Те, в свою очередь, могут подключать собственных субагентов для более узких задач.

В результате получается целое дерево агентов. Каждый уровень постоянно проходит через исследование, планирование, выполнение и проверку, пока цель не будет достигнута.

Один агент в цикле похож на человека, который несколько раз переписывает собственный черновик. Fleet looping больше напоминает полноценную команду, которая ведёт проект от постановки задачи до финального результата.

Вы задаёте цель. Система сама продолжает работать, пока не уложится в заданные требования.

Open Looping. Open Looping даёт агенту много свободы. Цель есть. Ограничения тоже есть. Но внутри этих рамок агент может исследовать разные направления, пробовать разные подходы и находить решения, которые вы заранее не описали.

Сейчас именно это выглядит самым интересным направлением. Этим занимаются Peter и многие другие исследователи. Проблема в стоимости. Открытый цикл с реальной свободой исследования сжигает огромное количество токенов. Для 90% людей без неограниченного бюджета такой подход пока слишком дорог. А если направить его на проект с размытыми критериями качества, он быстро превращается в генератор мусора.

Closed Looping. Closed Looping работает гораздо жёстче.

Человек заранее проектирует весь процесс:
- чёткая цель
- фиксированные шаги
- проверка на каждом этапе
- точка остановки или возврата результата

Агенты всё так же работают в цикле, но уже внутри созданного вами каркаса. С каждым запуском результат становится лучше, потому что данные предыдущих проходов используются в следующих. И всё это укладывается в обычный бюджет, потому что путь выполнения заранее ограничен.

btw: Если хочется посмотреть на это вживую, то тут состряпали проект: https://loops.elorm.xyz/loops

Это каталог готовых воркфлоу для ваших агентов. Копируете kickoff-промпт, задаёте условия завершения и запускаете цикл.

Сейчас доступно 40 готовых loop-сценариев. Респект за loops! 🫢
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3
This media is not supported in your browser
VIEW IN TELEGRAM
На GitHub сейчас активно обсуждают два проекта для генерации UI-дизайна :

1. taste-skill

По сути, добавляет для агента дополнительный слой дизайн-ревью. Перед выдачей результата модель проверяет интерфейс по набору визуальных принципов: иерархия, работа с отступами, ритм, композиция, использование пустого пространства и другие базовые правила дизайна. Помогает избежать хаотичных цветов, перегруженных экранов и рандомных дизайн решений.

2. impeccable

Набор из 23 дизайн-команд и подробного гайда по типичным ошибкам ИИ при создании интерфейсов.
Фокусируется на структуре, адаптивности, анимациях и общей логике построения интерфейсов.

taste-skill отвечает за визуальный вкус.
impeccable отвечает за структуру и реализацию.
Антропики выпустили Claude Fable 5

Бенчмарки выглядят впечатляюще. По сути, это обновлённый Mythos, но с максимально строгими ограничениями: запросы по кибербезопасности, химии и биологии автоматически перенаправляются в Opus 4.8

Цена: $10 за миллион входных токенов и $50 за выходных, вдвое дешевле Mythos Preview.

Сейчас модель доступна пользователям Pro, Max, Team и Enterprise без доплаты до 22 июня. После этого её уберут из стандартного доступа и переведут на систему usage credits

https://www.anthropic.com/news/claude-fable-5-mythos-5

🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Fable 5 протестировали против Opus 4.8 на задачах по физическому моделированию.

Обе модели получили одинаковые промпты и должны были сгенерировать автономные HTML5-симуляции без сторонних библиотек:

→ Хаотический двойной маятник
→ Доска Гальтона
→ Вода во вращающемся барабане (WCSPH)

Стоимость генерации:

• Fable 5 — $3.35, 68.7 тыс. токенов, 14 мин 47 сек
• Opus 4.8 — $0.93, 38.9 тыс. токенов, 8 мин 10 сек

Наиболее заметное преимущество Fable показала в симуляции воды. Модель создала более цельный и устойчивый объём жидкости. У Opus наблюдались крупные разрывы у стенок, отдельные частицы разлетались по сцене, а сама жидкость хуже сохраняла стабильность. 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
3
NVIDIA выпустила SkillSpector

Это инструмент с открытым исходным кодом для поиска уязвимостей в Agent Skills. Помогает выявлять prompt injection-атаки, утечки данных, уязвимые зависимости, опасный код и другие проблемы безопасности.

http://github.com/nvidia/skillspector
😨😨😨
Please open Telegram to view this post
VIEW IN TELEGRAM
5
This media is not supported in your browser
VIEW IN TELEGRAM
Нашёл интересный Claude Code-плагин для Fable 5 под названием /harness

Штука запускает агента на вашем проекте, отслеживает все ошибки и автоматически собирает CLAUDE.md на основе реальных фейлов. Если агент ошибся с путями, не нашёл нужный скрипт или сделал неверное предположение о структуре проекта — /harness это зафиксирует. В следующий раз агент уже знает об этих проблемах и не наступает на те же грабли.

Настройка занимает пару минут:

Установите Hyperbrowser CLI: тут

Добавьте команду /harness:

mkdir .claude/skills/harness


Дальше закидываете SKILL.md в папку, перезапускаете Claude Code и команда готова к работе.

Получить SKILL.md можно здесь: https://github.com/hyperbrowserai/examples/tree/main/skills

🎉🎉🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
Попытка выжать из Claude Fable максимум. 💳

Завезли команду /improve. Она использует самую мощную модель для аудита вашего проекта, а затем готовит план работ для более дешёвых моделей. /improve анализирует кодовую базу, находит баги, проблемы с производительностью, технический долг, отсутствующие тесты и потенциальные точки роста. После этого создаёт подробный план, который сможет выполнить любой агент на более дешёвой модели.

То есть дорогую модель вы тратите на интеллект, а дешёвую — на исполнение. Команду можно запускать по всей кодовой базе или только на текущей рабочей ветке.

Каждый план включает:
• аудит проекта
• исследование и сбор контекста
• определение объёма работ
• пошаговый план выполнения
• стратегию тестирования
• условия завершения задачи

https://github.com/shadcn/improve
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
TIL: есть расширение ShadcnBlocks - которое даёт огромную библиотеку готовых блоков и компонентов shadcn/ui прямо в Cursor, VS Code и Antigravity.

Не придётся скакать между браузером, документацией и IDE. Открыл компонент, скопировал, вставил в проект и полетели дальше.

🤭🤭🤭
Please open Telegram to view this post
VIEW IN TELEGRAM
// Self-Harness: агентные системы, которые улучшают сами себя //

Большинство агентных фреймворков сегодня создаются один раз и потом почти не меняются. Промпты обновляются, инструменты обновляются, модели обновляются. Проблема в том, что модели меняются быстрее, чем обвязка вокруг них. А что если сам harness сможет переписывать себя?

Авторы новой работы предлагают рассматривать harness, промпты, инструменты и управляющую логику вокруг модели как обучаемый артефакт, который улучшается на основе собственных запусков.

Вместо фиксированной обвязки, которую разработчик поддерживает вручную, система сама оптимизирует свою структуру по мере работы. Получается интересный сдвиг: агент начинает накапливать не только знания и результаты, но и улучшения собственной архитектуры. Для long-horizon агентов это особенно важно.

Paper: arxiv.org/abs/2606.09498