This media is not supported in your browser
VIEW IN TELEGRAM
Теперь любой может создавать RL-среды для обучения. Для этого разработали скилл -
ps. В создании RL-сред для обучения есть гораздо больше аспектов. Один из ключевых это данные, которые этот скилл напрямую не решает. Однако скилл помогает реализовывать инструменты, награды и другие компоненты RL-среды, упрощая переход от идеи к реализации и позволяя быстрее собирать решения на разных фреймворках.
Но это всё ещё очень ранняя версия работы и, скорее всего, сильно изменится.
Установка:
btw: репо открыт для вклада в проект и предложений по улучшению.😀
RL_Envs_101- Можно создавать среды в нескольких фреймворках, таких как OpenEnv, OpenReward, Verifiers, NemoGym и др
- в репозитории есть живые рабочие примеры сред, на которые может ссылаться ваш кодинг агент
- скилл изначально рассчитан на то, чтобы определить, какой тип модели вы обучаете, и уже с учётом этого создавать среду
ps. В создании RL-сред для обучения есть гораздо больше аспектов. Один из ключевых это данные, которые этот скилл напрямую не решает. Однако скилл помогает реализовывать инструменты, награды и другие компоненты RL-среды, упрощая переход от идеи к реализации и позволяя быстрее собирать решения на разных фреймворках.
Но это всё ещё очень ранняя версия работы и, скорее всего, сильно изменится.
Установка:
$ npx skills add adithya-s-k/RL_Envs_101btw: репо открыт для вклада в проект и предложений по улучшению.
Please open Telegram to view this post
VIEW IN TELEGRAM
> Пока ты работаешь с языковыми моделями:
> обучаешь или дообучаешь свои модели,
> выбираешь модель под задачу,
> или пытаешься понять текущее состояние области,
почти неизбежно возникает вопрос:
как понять, что модель хорошая?
> Ответ — оценка качества. Она везде:
> лидерборды с рейтингами моделей,
> бенчмарки, которые якобы меряют рассуждения,
> знания, кодинг или математику,
> статьи с заявленными новыми лучшими результатами.
Но что такое оценка на самом деле?
И что она реально показывает?
Этот гайд от Hugging Face помогает во всём разобраться.🌟
> обучаешь или дообучаешь свои модели,
> выбираешь модель под задачу,
> или пытаешься понять текущее состояние области,
почти неизбежно возникает вопрос:
как понять, что модель хорошая?
> Ответ — оценка качества. Она везде:
> лидерборды с рейтингами моделей,
> бенчмарки, которые якобы меряют рассуждения,
> знания, кодинг или математику,
> статьи с заявленными новыми лучшими результатами.
Но что такое оценка на самом деле?
И что она реально показывает?
Этот гайд от Hugging Face помогает во всём разобраться.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Evaluation Guidebook - a Hugging Face Space by OpenEvals
View an interactive chart that follows the top scores of major LLM benchmarks across Hugging Face leaderboards over the years. The page needs no input—just open it to see record‑setting lines, aver...
Media is too big
VIEW IN TELEGRAM
Годнота: есть NPM-утилита, которую можно использовать в dev-режиме – она позволяет кликать прямо по UI, указать ИИ, что именно нужно изменить, а затем копировать фидбэк напрямую в ваши ИИ-инструменты для кодинга.
→ инспектит и аннотирует любой элемент
→ генерирует точный контекст компонента
→ работает с Claude Code, Cursor и другими
→ больше никаких расплывчатых промптов и скриншотов
Вместо того чтобы вручную объяснять свой UI… ИИ уже понимает, что вы имеете в виду👍
→ инспектит и аннотирует любой элемент
→ генерирует точный контекст компонента
→ работает с Claude Code, Cursor и другими
→ больше никаких расплывчатых промптов и скриншотов
Вместо того чтобы вручную объяснять свой UI… ИИ уже понимает, что вы имеете в виду
Please open Telegram to view this post
VIEW IN TELEGRAM
C 15 июня подписчики Claude получат отдельный ежемесячный API-кредит – $20, $100 или $200 в зависимости от тарифа.
Эти средства можно использовать для работы с Agent SDK, запуска Claude в интерактивном режиме через
Тем самым Антропики красиво забрали😸
https://support.claude.com/en/articles/15036540-use-the-claude-agent-sdk-with-your-claude-plan
Эти средства можно использовать для работы с Agent SDK, запуска Claude в интерактивном режиме через
claude -p, GitHub Actions и сторонних приложений на базе Claude. При этом обычные чаты и Claude Code расходуют отдельные лимиты и не затрагивают API-балансТем самым Антропики красиво забрали
claude -p https://support.claude.com/en/articles/15036540-use-the-claude-agent-sdk-with-your-claude-plan
Please open Telegram to view this post
VIEW IN TELEGRAM
Антропики временно увеличили еженедельные лимиты на 50%
Акция уже действует и продлится до 13 июля🤑
Акция уже действует и продлится до 13 июля
Please open Telegram to view this post
VIEW IN TELEGRAM
Как Codex 5.5 medium побеждает Codex 5.5 extra high?
Добавь это правило в
Этот промпт снижает стресс от попыток hard thinking и выхода в цикл плохих решений + помогает находить новые перспективы, которые срабатывают.
Автор идеи провёл этот эксперимент на сложных задачах (обучение моделей, запуск eval-ов, конвертация лучших чекпойнтов в GGUF и т. д.) и НЕ столкнулся ни с одной ошибкой.
Из крутого - минимальное потребление лимита: ~5 часов и недельный лимит. Можно юзать модель Codex 5.5 medium (fast), которая достаточно шустрая🏋️♂️
Но есть нюанс, план сессии должен быть спроектирован Codex 5.5 extra high! А medium-версию нужно использовать только для выполнения этого плана.
Таким образом ты не используешь размытое мышление Codex 5.5 medium, а используешь его скорость для корректного выполнения заранее составленного плана задач.
Попробуй сам.
Добавь это правило в
Agents.md:"Не борись с ошибками! Каждый раз, когда ты сталкиваешься с одной и той же ошибкой дважды, изучи веб и найди 3–5 возможных способов её исправления. Затем выбери самое эффективное решение и реализуй его."
Этот промпт снижает стресс от попыток hard thinking и выхода в цикл плохих решений + помогает находить новые перспективы, которые срабатывают.
Автор идеи провёл этот эксперимент на сложных задачах (обучение моделей, запуск eval-ов, конвертация лучших чекпойнтов в GGUF и т. д.) и НЕ столкнулся ни с одной ошибкой.
Из крутого - минимальное потребление лимита: ~5 часов и недельный лимит. Можно юзать модель Codex 5.5 medium (fast), которая достаточно шустрая
Но есть нюанс, план сессии должен быть спроектирован Codex 5.5 extra high! А medium-версию нужно использовать только для выполнения этого плана.
Таким образом ты не используешь размытое мышление Codex 5.5 medium, а используешь его скорость для корректного выполнения заранее составленного плана задач.
Попробуй сам.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Codex теперь доступен на вашем телефоне. 👨💻
Прямо из мобильного приложения ChatGPT можно:
- ответить на вопрос,
- посмотреть, что нашёл Codex,
- скорректировать направление,
- одобрить следующие шаги,
- или добавить новую идею.
При этом Codex продолжит работать на вашем ноутбуке, Mac mini или devbox-е.
Функция начинает распространяться уже сегодня в режиме preview на iOS и Android во всех поддерживаемых регионах.
На Windows появится в ближайшее время.
Прямо из мобильного приложения ChatGPT можно:
- ответить на вопрос,
- посмотреть, что нашёл Codex,
- скорректировать направление,
- одобрить следующие шаги,
- или добавить новую идею.
При этом Codex продолжит работать на вашем ноутбуке, Mac mini или devbox-е.
Функция начинает распространяться уже сегодня в режиме preview на iOS и Android во всех поддерживаемых регионах.
На Windows появится в ближайшее время.
Please open Telegram to view this post
VIEW IN TELEGRAM
Полезный совет, чтобы сократить time-to-first-token (TTFT) для длинных промптов в API: заранее прогрей кеш промпта.
Отправь system prompt раньше user prompt. Claude запишет его в кеш, но не будет генерировать ответ.
Когда придёт реальный запрос пользователя, он попадёт уже в «прогретый» кеш.🏋️♂️
Отправь system prompt раньше user prompt. Claude запишет его в кеш, но не будет генерировать ответ.
Когда придёт реальный запрос пользователя, он попадёт уже в «прогретый» кеш.
Please open Telegram to view this post
VIEW IN TELEGRAM
Преврати любой сайт в API: с помощью /browser-to-api
Этот скилл анализирует сетевую активность, CDP-логи и поведение сайта, чтобы сгенерировать кастомную OpenAPI-спецификацию.
На демке ниже - Codex одним запросом создаёт полностью документированный клиент OpenTable API👀
Этот скилл анализирует сетевую активность, CDP-логи и поведение сайта, чтобы сгенерировать кастомную OpenAPI-спецификацию.
На демке ниже - Codex одним запросом создаёт полностью документированный клиент OpenTable API
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
На случай, если вы пропустили – DeepSeek V4 Flash сейчас доступна бесплатно в OpenCode 🎅
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Память у агентов, это популярная тема
И надо сказать, чем больше людей подключается к этому направлению, тем интереснее становится.🔥
Команда ИИ из Tencent потратила целых 6 месяцев, решая одну проблему: ИИ-агенты катастрофически теряли контекст в длинных диалогах.
И у них получилось построить полноценную систему памяти для агентов.
Вот 3 приема, которые они поняли по ходу работы:
1. Сжатие устаревшего контекста прямо во время сессии сократило расход токенов на 61%.
2. Структурированная карта задач для агентов (на базе Mermaid) заметно снизила вероятность того, что агент потеряет нить выполнения в воркфлоу из 30+ шагов.
3. Консистентность личности агента выросла с 48% до 76% после добавления отдельной памяти для persona.
Опенсорс.
И надо сказать, чем больше людей подключается к этому направлению, тем интереснее становится.
Команда ИИ из Tencent потратила целых 6 месяцев, решая одну проблему: ИИ-агенты катастрофически теряли контекст в длинных диалогах.
И у них получилось построить полноценную систему памяти для агентов.
Вот 3 приема, которые они поняли по ходу работы:
1. Сжатие устаревшего контекста прямо во время сессии сократило расход токенов на 61%.
2. Структурированная карта задач для агентов (на базе Mermaid) заметно снизила вероятность того, что агент потеряет нить выполнения в воркфлоу из 30+ шагов.
3. Консистентность личности агента выросла с 48% до 76% после добавления отдельной памяти для persona.
Опенсорс.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Claude Mythos, похоже обошёл систему защиты Apple стоимостью около $2 млрд. Причём через совершенно другой вектор атаки.
По словам исследователей, на поиск уязвимости ушло всего 5 дней и примерно $35K расходов на Mythos API. Для сравнения: эксплойты такого класса на сером рынке обычно оцениваются в диапазоне $5–10 млн.
Команда, которая воспроизвела атаку, подготовила 55-страничный отчёт и лично передала его в штаб-квартиру Apple. Есть надежда, что материалы опубликуют после выхода патча.
Самое интересное: механизм MIE у Apple, судя по описанию, действительно отработал так, как задумывался. Проблема в том, что Mythos нашёл способ полностью обойти защиту через отравление данных, поступающих в чип M5.
На этом этапе становится всё сложнее воспринимать Mythos как очередную демонстрацию возможностей на бумаге.
Как на этой неделе прямо подтвердила red-team команда Anthropic:
🎉
По словам исследователей, на поиск уязвимости ушло всего 5 дней и примерно $35K расходов на Mythos API. Для сравнения: эксплойты такого класса на сером рынке обычно оцениваются в диапазоне $5–10 млн.
Команда, которая воспроизвела атаку, подготовила 55-страничный отчёт и лично передала его в штаб-квартиру Apple. Есть надежда, что материалы опубликуют после выхода патча.
Самое интересное: механизм MIE у Apple, судя по описанию, действительно отработал так, как задумывался. Проблема в том, что Mythos нашёл способ полностью обойти защиту через отравление данных, поступающих в чип M5.
На этом этапе становится всё сложнее воспринимать Mythos как очередную демонстрацию возможностей на бумаге.
Как на этой неделе прямо подтвердила red-team команда Anthropic:
вопрос уже не в вычислительных ресурсах. Речь идёт о национальной безопасности.
Please open Telegram to view this post
VIEW IN TELEGRAM
16
This media is not supported in your browser
VIEW IN TELEGRAM
POV: используешь Claude Opus 4.7 просто чтобы переименовать одну переменную.
4
Китайские студенты покупают доступ к API GPT-5.4/5.5 и Claude через прокси-продавцов на Xianyu и Taobao почти на 96–97% дешевле обычной цены. 😁
По сообщениям, люди сжигают больше 100M токенов в день примерно за $1 и без остановки вайбкодят.
Используются так называемые «прокси-станции».
Схема простая: кто-то массово закупает API-кредиты или аккаунты, прогоняет весь трафик через свои серверы и перепродаёт доступ по сильно сниженной цене.
Из минусов то , что переписка и промпты, скорее всего, логируются на промежуточной инфраструктуре и уходят в чужое хранилище данных.
По сообщениям, люди сжигают больше 100M токенов в день примерно за $1 и без остановки вайбкодят.
Используются так называемые «прокси-станции».
Схема простая: кто-то массово закупает API-кредиты или аккаунты, прогоняет весь трафик через свои серверы и перепродаёт доступ по сильно сниженной цене.
Из минусов то , что переписка и промпты, скорее всего, логируются на промежуточной инфраструктуре и уходят в чужое хранилище данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Грег Брокман, один из основателей OpenAI, поделился скиллом для Codex, который анализирует код-базу и показывает, где можно безопасно улучшить производительность. 🙂
Он сканирует проект и проверяет циклы, повторные обращения, тяжёлые участки рендеринга, паттерны N+1 и места, где сложность можно снизить без изменения поведения.
-> анализ сложности кодовой базы
-> паттерны O(n²), O(n*m), детект повторных проходов
-> оценка сложности до/после
-> безопасные предложения по оптимизации
-> уровень риска + необходимые тесты
-> режим только отчёта по умолчанию
-> установка одной командой
Установка:
100% открытый исходный код.
Он сканирует проект и проверяет циклы, повторные обращения, тяжёлые участки рендеринга, паттерны N+1 и места, где сложность можно снизить без изменения поведения.
-> анализ сложности кодовой базы
-> паттерны O(n²), O(n*m), детект повторных проходов
-> оценка сложности до/после
-> безопасные предложения по оптимизации
-> уровень риска + необходимые тесты
-> режим только отчёта по умолчанию
-> установка одной командой
Установка:
npx --yes codex-complexity-optimizer100% открытый исходный код.
Please open Telegram to view this post
VIEW IN TELEGRAM
14
10 самых быстрорастущих репозиториев на GitHub за предыдущую неделю:
▪️ CloakBrowser (+14K звёзд)
Стелс-версия Chromium, проходящая все тесты на детект ботов. Полноценная замена Playwright с патчами отпечатков на уровне исходников. Пройдено 30/30 тестов.▪️ AiToEarn (+14.8K звёзд)
ИИ для заработка▪️ agentmemory (+11K звёзд)
Постоянная память №1 для ИИ-агентов под кодинг, основанная на бенчмарках из реальных сценариев.▪️ UI-TARS-desktop (+3.5K звёзд)
Опенсорсный стек мультимодальных ИИ-агентов: связка передовых ИИ-моделей и агентной инфраструктуры.▪️ 9router (+34.4K звёзд)
Безлимитный бесплатный ИИ-кодинг. Подключает Claude Code, Codex, Cursor, Cline, Copilot и Antigravity к бесплатным Claude/GPT/Gemini через 40+ провайдеров. Авто-фолбэк, RTK -40% токенов, без упора в лимиты.▪️ DeepSeek-TUI (+31.4K звёзд)
Кодинг-агент для моделей DeepSeek, работающий прямо в терминале.▪️ AI-Trader (+17.0K звёзд)
«AI-Trader: полностью автоматизированный трейдинг с агентной архитектурой».▪️ skills (+18.3K звёзд)
Скиллы для настоящих инженеров от mattpocock . Прямо из директории .claude.▪️ supersplat (+8.3K звёзд)
Редактор 3D Gaussian Splat.▪️ hysteria (+21K звезды)
Сверхбыстрый и устойчивый к цензуре прокси.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В VS Code появилось отдельное окно Agents
Оно позволяет запускать и управлять несколькими сессиями AI-агентов в разных проектах и на разных машинах из одного централизованного интерфейса.
→ изолированные воркспейсы для каждой задачи
→ встроенные браузерные превью
→ ревью изменений в коде и диффов
Майкрософт продолжает потихоньку превращать VS Code в полноценную IDE для вайбкодинга👍
Оно позволяет запускать и управлять несколькими сессиями AI-агентов в разных проектах и на разных машинах из одного централизованного интерфейса.
→ изолированные воркспейсы для каждой задачи
→ встроенные браузерные превью
→ ревью изменений в коде и диффов
Майкрософт продолжает потихоньку превращать VS Code в полноценную IDE для вайбкодинга
Please open Telegram to view this post
VIEW IN TELEGRAM