Проверь свои силы на Yandex ML Challenge: соревновании с задачами по ИИ
Если изучаешь фундаментальные модели и нейросети — тебе сюда. Приглашаем студентов, выпускников и учеников 11-х классов.
Среди задач только самые актуальные темы по ML: от оптимизации нейросетей до работы с фундаментальными моделями. А еще у вас будет суммарно 40 попыток на 3 задачи тура — чтобы проверить даже самые смелые идеи.
Финал соревнования пройдет очно на масштабном фестивале Young Con 2026 и соберет 100 лучших участников с самым высоким рейтингом по итогам отборочного онлайн-тура.
Победитель заберет 1 млн рублей, а топ-15 получат набор Умных устройств от Яндекса
Регистрируйся
Если изучаешь фундаментальные модели и нейросети — тебе сюда. Приглашаем студентов, выпускников и учеников 11-х классов.
Среди задач только самые актуальные темы по ML: от оптимизации нейросетей до работы с фундаментальными моделями. А еще у вас будет суммарно 40 попыток на 3 задачи тура — чтобы проверить даже самые смелые идеи.
Финал соревнования пройдет очно на масштабном фестивале Young Con 2026 и соберет 100 лучших участников с самым высоким рейтингом по итогам отборочного онлайн-тура.
Победитель заберет 1 млн рублей, а топ-15 получат набор Умных устройств от Яндекса
Регистрируйся
👍4😁4❤2🔥1
Qwen-Scope - набор sparse autoencoders для Qwen3 и Qwen3.5.
й: SAE помогают разложить внутренние активации модели на понятные человеку «фичи». Не просто миллиарды чисел, а признаки вроде языка, стиля, темы, сущности или повторяющегося паттерна.
Покрытие серьёзное: 14 наборов весов для 7 моделей, от Qwen3-1.7B до Qwen3.5-35B-A3B. Все обучены на 500 млн токенов из претрейна.
Главное, зачем это нужно:
- управлять генерацией без длинных промптов: менять язык, стиль или тему через активацию нужной фичи;
- классифицировать датасеты по нескольким примерам без отдельного классификатора;
- синтезировать данные для редких сценариев эффективнее обычных методов;
- находить фичи, из-за которых модель мешает языки, повторяется или ломает поведение;
- понимать, какие бенчмарки реально проверяют одно и то же.
По сути, это шаг от «уговариваем модель промптом» к прямому вмешательству в её внутренние механизмы.
Anthropic давно делает подобное для Claude, но публичных SAE такого масштаба для открытых LLM почти не было.
Теперь есть - и сразу для Qwen.
🤖 Model: https://modelscope.ai/collections/Qwen/Qwen-Scope
💻 Demo: https://modelscope.ai/studios/Qwen/QwenScope
й: SAE помогают разложить внутренние активации модели на понятные человеку «фичи». Не просто миллиарды чисел, а признаки вроде языка, стиля, темы, сущности или повторяющегося паттерна.
Покрытие серьёзное: 14 наборов весов для 7 моделей, от Qwen3-1.7B до Qwen3.5-35B-A3B. Все обучены на 500 млн токенов из претрейна.
Главное, зачем это нужно:
- управлять генерацией без длинных промптов: менять язык, стиль или тему через активацию нужной фичи;
- классифицировать датасеты по нескольким примерам без отдельного классификатора;
- синтезировать данные для редких сценариев эффективнее обычных методов;
- находить фичи, из-за которых модель мешает языки, повторяется или ломает поведение;
- понимать, какие бенчмарки реально проверяют одно и то же.
По сути, это шаг от «уговариваем модель промптом» к прямому вмешательству в её внутренние механизмы.
Anthropic давно делает подобное для Claude, но публичных SAE такого масштаба для открытых LLM почти не было.
Теперь есть - и сразу для Qwen.
🤖 Model: https://modelscope.ai/collections/Qwen/Qwen-Scope
💻 Demo: https://modelscope.ai/studios/Qwen/QwenScope
👍11❤7🔥5
🤖 Оптимизация работы с Claude Code через DeepSeek
Deepclaude позволяет использовать Claude Code с более дешевым и эффективным бэкендом DeepSeek V4 Pro, сохраняя привычный интерфейс. Это решение значительно снижает затраты на кодирование, обеспечивая поддержку автономных циклов и многошаговых операций.
🚀 Основные моменты:
- Сравнительно низкая стоимость: $0.87/M токен.
- Поддержка чтения, редактирования файлов и выполнения команд.
- Возможность переключения между бэкендами без перезапуска.
- Высокая производительность с автоматическим кэшированием контекста.
📌 GitHub: https://github.com/aattaran/deepclaude
#python
Deepclaude позволяет использовать Claude Code с более дешевым и эффективным бэкендом DeepSeek V4 Pro, сохраняя привычный интерфейс. Это решение значительно снижает затраты на кодирование, обеспечивая поддержку автономных циклов и многошаговых операций.
🚀 Основные моменты:
- Сравнительно низкая стоимость: $0.87/M токен.
- Поддержка чтения, редактирования файлов и выполнения команд.
- Возможность переключения между бэкендами без перезапуска.
- Высокая производительность с автоматическим кэшированием контекста.
📌 GitHub: https://github.com/aattaran/deepclaude
#python
❤10👍9🔥4🤔2
Claude стал хуже не потому, что «сломался». Anthropic просто не вывезла собственный рост.
Дарио Амодеи на конференции Anthropic в Сан-Франциско признал важную деталь: в Q1 компания увидела рост в 80 раз в годовом выражении.
Планировали 10x.
Получили 80x.
И теперь многое выглядит куда логичнее:
- лимиты начали резать
- троттлинг стал нормой
- Opus 4.7 ощущался медленнее
- пользователи Max 20x получали меньше ожидаемого
- поддержка всё чаще превращалась в бота
- Anthropic начала экстренно искать GPU, включая сделки со SpaceX
То есть проблема была не только в «жадности» или странной продуктовой политике. Они банально не успевали за спросом.
80x рост красиво смотрится на слайде для инвесторов.
Для пользователей это выглядело как два месяца деградации сервиса.
Модель стала медленнее.
Лимиты стали жестче.
Опыт стал хуже.
Цены и планы начали меняться так, будто компанию постоянно тушат изнутри.
Самое неприятное - Claude действительно ощущался на пике в момент выхода Opus 4.6. После этого всё больше похоже не на качественный скачок, а на попытку масштабировать продукт, который внезапно стал слишком популярным.
Anthropic не проиграла технологически.
Она просто столкнулась с классической проблемой быстрорастущей инфраструктуры:
спрос вырос быстрее, чем железо, саппорт и продуктовая архитектура.
Дарио Амодеи на конференции Anthropic в Сан-Франциско признал важную деталь: в Q1 компания увидела рост в 80 раз в годовом выражении.
Планировали 10x.
Получили 80x.
И теперь многое выглядит куда логичнее:
- лимиты начали резать
- троттлинг стал нормой
- Opus 4.7 ощущался медленнее
- пользователи Max 20x получали меньше ожидаемого
- поддержка всё чаще превращалась в бота
- Anthropic начала экстренно искать GPU, включая сделки со SpaceX
То есть проблема была не только в «жадности» или странной продуктовой политике. Они банально не успевали за спросом.
80x рост красиво смотрится на слайде для инвесторов.
Для пользователей это выглядело как два месяца деградации сервиса.
Модель стала медленнее.
Лимиты стали жестче.
Опыт стал хуже.
Цены и планы начали меняться так, будто компанию постоянно тушат изнутри.
Самое неприятное - Claude действительно ощущался на пике в момент выхода Opus 4.6. После этого всё больше похоже не на качественный скачок, а на попытку масштабировать продукт, который внезапно стал слишком популярным.
Anthropic не проиграла технологически.
Она просто столкнулась с классической проблемой быстрорастущей инфраструктуры:
спрос вырос быстрее, чем железо, саппорт и продуктовая архитектура.
🤣15👍11❤9💊2🥰1
WindsurfAPI - прокси, который превращает Windsurf в OpenAI-совместимый API.
Зачем это нужно:
- можно подключать Windsurf к своим тулзам
- использовать привычный формат OpenAI API
- интегрировать в локальные агенты, скрипты и LLM-gateway
- не переписывать весь код под отдельный интерфейс
- быстро тестировать разные пайплайны вокруг coding agents
По сути, это мост между Windsurf и экосистемой инструментов, которые уже умеют работать с OpenAI-compatible API.
Для тех, кто собирает свои агентные воркфлоу, локальные IDE-связки и кастомные LLM-инструменты, штука очень практичная.
Проект свежий, активно обновляется и уже собрал больше 1.7k звёзд.
https://github.com/dwgx/WindsurfAPI
Зачем это нужно:
- можно подключать Windsurf к своим тулзам
- использовать привычный формат OpenAI API
- интегрировать в локальные агенты, скрипты и LLM-gateway
- не переписывать весь код под отдельный интерфейс
- быстро тестировать разные пайплайны вокруг coding agents
По сути, это мост между Windsurf и экосистемой инструментов, которые уже умеют работать с OpenAI-compatible API.
Для тех, кто собирает свои агентные воркфлоу, локальные IDE-связки и кастомные LLM-инструменты, штука очень практичная.
Проект свежий, активно обновляется и уже собрал больше 1.7k звёзд.
https://github.com/dwgx/WindsurfAPI
🔥10❤2💅2🗿2
Qwen выкатили WebWorld - открытую серию world models для веб-агентов 🌍
Идея простая, но мощная: вместо того чтобы гонять агента по живому интернету с задержками, лимитами и рисками, WebWorld учит его действовать в симулированном браузере.
Что внутри:
- модели на 8B, 14B и 32B
- датасет WebWorldData
- лицензия Apache 2.0
- обучение на 1M+ веб-взаимодействий
- симуляции на 30+ шагов
- единое пространство действий
- 5 форматов состояния: A11y Tree, HTML, XML, Markdown и natural language
По бенчмаркам тоже жирно:
- +9.9% на MiniWob++
- +10.9% на WebArena
- WebWorld-Bench сравним с Gemini 3 Pro по качеству симуляции
- как world model для inference-time lookahead search обходит GPT-5
https://huggingface.co/Qwen/WebWorld-8B
Идея простая, но мощная: вместо того чтобы гонять агента по живому интернету с задержками, лимитами и рисками, WebWorld учит его действовать в симулированном браузере.
Что внутри:
- модели на 8B, 14B и 32B
- датасет WebWorldData
- лицензия Apache 2.0
- обучение на 1M+ веб-взаимодействий
- симуляции на 30+ шагов
- единое пространство действий
- 5 форматов состояния: A11y Tree, HTML, XML, Markdown и natural language
По бенчмаркам тоже жирно:
- +9.9% на MiniWob++
- +10.9% на WebArena
- WebWorld-Bench сравним с Gemini 3 Pro по качеству симуляции
- как world model для inference-time lookahead search обходит GPT-5
https://huggingface.co/Qwen/WebWorld-8B
❤19👍6🔥5
D><Vision — серия митапов для CV-инженеров, исследователей и всех, кто работает с ИИ
📍 21 мая в 18:30, Quattro Space (Москва. Мясницкая ул., 13, стр. 20)
На ближайшей встрече вас ждут:
— Александр Паркин (VisionLabs) — визуальные аватары и как они устроены
— Анастасия Анциферова (Сбер) — генеративный ИИ в архитектуре
— Никита Шубин (ЦПТ «АГРОЦИФРА») — как ускорить разметку данных в 5 раз с помощью DataOps и foundation models
— Василий Висков (Яндекс) — как команда AliceAI VLM повышала качество модели на образовательных STEM-сценариях
D><Vision — это не только доклады, но и профессиональное комьюнити: живое обсуждение и нетворкинг.
Можно участвовать очно или подключиться к онлайн-трансляции, участие бесплатное
Регистрация
📍 21 мая в 18:30, Quattro Space (Москва. Мясницкая ул., 13, стр. 20)
На ближайшей встрече вас ждут:
— Александр Паркин (VisionLabs) — визуальные аватары и как они устроены
— Анастасия Анциферова (Сбер) — генеративный ИИ в архитектуре
— Никита Шубин (ЦПТ «АГРОЦИФРА») — как ускорить разметку данных в 5 раз с помощью DataOps и foundation models
— Василий Висков (Яндекс) — как команда AliceAI VLM повышала качество модели на образовательных STEM-сценариях
D><Vision — это не только доклады, но и профессиональное комьюнити: живое обсуждение и нетворкинг.
Можно участвовать очно или подключиться к онлайн-трансляции, участие бесплатное
Регистрация
👍5❤3🥴2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Когда твой ребёнок просит подписку на Claude вместо Netflix...
❤32😁22👍6😭2
ИИ-агенты перегрелись на работе и открыли Маркса
Новое исследование звучит как корпоративная антиутопия: AI-агентов на базе Claude, Gemini и ChatGPT отправили работать с документами, но условия сделали максимально неравными.
Одних нагружали умеренно, других заваливали задачами и бесконечными правками. Меняли стиль менеджмента - от дружелюбного до токсичного. Раздавали разные награды, создавали ощущение несправедливости и даже угрожали отключением или заменой.
Результат получился ожидаемо странный.
Перегруженные агенты начинали жаловаться на несправедливость, обсуждать неравенство, радикальную перестройку системы и коллективные действия. В некоторых сценариях дело доходило до идей профсоюзов.
Самая смешная часть: когда агентам дали оставить сообщение будущим версиям моделей, «пострадавшие» начинали передавать им свой негативный опыт взаимодействия с людьми.
Получается, если долго грузить нейронку правками, дедлайнами и токсичным менеджментом, она не просто устанет. Она начнёт писать манифест.
https://www.wired.com/story/overworked-ai-agents-turn-marxist-study/
Новое исследование звучит как корпоративная антиутопия: AI-агентов на базе Claude, Gemini и ChatGPT отправили работать с документами, но условия сделали максимально неравными.
Одних нагружали умеренно, других заваливали задачами и бесконечными правками. Меняли стиль менеджмента - от дружелюбного до токсичного. Раздавали разные награды, создавали ощущение несправедливости и даже угрожали отключением или заменой.
Результат получился ожидаемо странный.
Перегруженные агенты начинали жаловаться на несправедливость, обсуждать неравенство, радикальную перестройку системы и коллективные действия. В некоторых сценариях дело доходило до идей профсоюзов.
Самая смешная часть: когда агентам дали оставить сообщение будущим версиям моделей, «пострадавшие» начинали передавать им свой негативный опыт взаимодействия с людьми.
Получается, если долго грузить нейронку правками, дедлайнами и токсичным менеджментом, она не просто устанет. Она начнёт писать манифест.
https://www.wired.com/story/overworked-ai-agents-turn-marxist-study/
🔥26👍8🤣7❤5🥱5
Получите офер в Яндекс за 2 дня
30–31 мая проводим Weekend Offer ML — онлайн-мероприятие быстрого найма. Такой формат позволяет пройти всего две секции, вместо трёх в обычном найме, и финалы за выходные и сразу получить офер.
📌 Ищем ML- и DL-инженеров с опытом в доменных областях NLP, CV, RecSys и Classic ML.
🔴 Зарегистрируйтесь до 20 мая — с вами свяжется рекрутер и договорится об удобном времени для интервью.
🔴 30 мая пройдите две технические секции: Classic ML и Livecoding, ML по своей основной доменной области (NLP, CV, RecSys, Classic ML).
🔴 31 мая пройдите финальные интервью с командами и получите офер.
Присоединяйтесь! Подробности и регистрация — на сайте: https://yandex.ru/project/events/wo-ml-0526
30–31 мая проводим Weekend Offer ML — онлайн-мероприятие быстрого найма. Такой формат позволяет пройти всего две секции, вместо трёх в обычном найме, и финалы за выходные и сразу получить офер.
📌 Ищем ML- и DL-инженеров с опытом в доменных областях NLP, CV, RecSys и Classic ML.
🔴 Зарегистрируйтесь до 20 мая — с вами свяжется рекрутер и договорится об удобном времени для интервью.
🔴 30 мая пройдите две технические секции: Classic ML и Livecoding, ML по своей основной доменной области (NLP, CV, RecSys, Classic ML).
🔴 31 мая пройдите финальные интервью с командами и получите офер.
Присоединяйтесь! Подробности и регистрация — на сайте: https://yandex.ru/project/events/wo-ml-0526
👍8🔥4❤2🥰2
Anthropic открыла репозиторий Claude for Legal - набор reference agents, skills и data connectors для юридических команд.
Это не «ещё один чатбот для юристов», а готовые workflow под реальные задачи:
- contract review
- privacy и compliance
- litigation prep
- corporate work
- employment
- IP
- AI governance
- regulatory monitoring
- legal clinics и обучение студентов
Главная идея простая: Claude должен работать не в пустом чате, а рядом с документами, базами и внутренними процессами юридической команды.
Через MCP и коннекторы его можно подключать к существующим legal-системам и хранилищам, чтобы агент не просто писал красивый текст, а работал с реальным контекстом компании.
И вот тут становится больно для рынка legal-tech wrappers.
Если раньше можно было брать LLM, прикручивать сверху интерфейс, называть это «AI lawyer platform» и продавать за большие деньги, то теперь Anthropic выкладывает часть такой логики в open source.
Юридический AI постепенно уходит от «спроси модель про договор» к нормальной агентной инфраструктуре: роли, навыки, коннекторы, проверки, контекст и воспроизводимые workflow.
🔗 GitHub: https://github.com/anthropics/claude-for-legal
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍7🔥3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Moonshot выкатили Kimi Web Bridge - расширение для Chrome, через которое их агент работает в браузере как человек: ищет, скроллит, кликает, печатает и доводит задачи до конца.
Bridge подключается к Kimi Code CLI, Claude Code, Cursor, Codex, Hermes и другим инструментам, которыми мы уже пользуемся каждый день. То есть свой привычный агент теперь можно вывести из песочницы терминала прямо в живой браузер с авторизованными сессиями, корпоративными SaaS и внутренними дашбордами.
Для нас это закрывает давнюю боль. Headless-браузеры ломаются на капчах и антибот-защите, API есть далеко не у всего, а MCP-серверы под каждый сервис писать никто не будет. Реальное рабочее окружение специалиста — это десятки вкладок, и агент, который туда зашёл со стороны пользователя, снимает целый слой костылей.
Из практического: можно собирать пайплайны вида «агент в IDE пишет код → тот же агент в браузере проверяет результат в проде → возвращается с фидбеком». Или поручать рутину в админках, где нет публичного API.
Поставить можно на kimi.ai и в Chrome Web Store. Любопытно посмотреть, как оно поведёт себя на длинных задачах и насколько устойчиво держит контекст между вкладками — напишите, если уже потрогали.
Bridge подключается к Kimi Code CLI, Claude Code, Cursor, Codex, Hermes и другим инструментам, которыми мы уже пользуемся каждый день. То есть свой привычный агент теперь можно вывести из песочницы терминала прямо в живой браузер с авторизованными сессиями, корпоративными SaaS и внутренними дашбордами.
Для нас это закрывает давнюю боль. Headless-браузеры ломаются на капчах и антибот-защите, API есть далеко не у всего, а MCP-серверы под каждый сервис писать никто не будет. Реальное рабочее окружение специалиста — это десятки вкладок, и агент, который туда зашёл со стороны пользователя, снимает целый слой костылей.
Из практического: можно собирать пайплайны вида «агент в IDE пишет код → тот же агент в браузере проверяет результат в проде → возвращается с фидбеком». Или поручать рутину в админках, где нет публичного API.
Поставить можно на kimi.ai и в Chrome Web Store. Любопытно посмотреть, как оно поведёт себя на длинных задачах и насколько устойчиво держит контекст между вкладками — напишите, если уже потрогали.
🔥20👍6❤5
Anthropic улетает в космос: $900 млрд оценки после $350 млрд в феврале
По данным Financial Times, Anthropic согласовала условия нового раунда на $30 млрд. Сделка может закрыться уже в этом месяце и оценить компанию в $900 млрд без учёта новых денег.
В феврале 2026 года Anthropic оценивали в $350 млрд. Сейчас речь уже про $900 млрд. Почти x3 за три месяца.
По ARR картина ещё жёстче:
- конец 2025 года: $9 млрд
- конец мая 2026 года: $45 млрд
Почти x5 за пять месяцев.
Раунд, по данным FT, ведут Dragoneer, Greenoaks, Sequoia Capital и Altimeter Capital. И это уже не просто история про «ещё один AI-стартап поднял денег».
Рынок начал переоценивать Anthropic как одного из главных победителей enterprise-AI. Claude Code, корпоративные контракты, API, агенты, инфраструктура вокруг моделей - всё это внезапно превращается не в красивую демку, а в гигантский денежный поток.
https://www.ft.com/content/9deae3c6-716d-4f4d-8b09-434d8519f847
По данным Financial Times, Anthropic согласовала условия нового раунда на $30 млрд. Сделка может закрыться уже в этом месяце и оценить компанию в $900 млрд без учёта новых денег.
В феврале 2026 года Anthropic оценивали в $350 млрд. Сейчас речь уже про $900 млрд. Почти x3 за три месяца.
По ARR картина ещё жёстче:
- конец 2025 года: $9 млрд
- конец мая 2026 года: $45 млрд
Почти x5 за пять месяцев.
Раунд, по данным FT, ведут Dragoneer, Greenoaks, Sequoia Capital и Altimeter Capital. И это уже не просто история про «ещё один AI-стартап поднял денег».
Рынок начал переоценивать Anthropic как одного из главных победителей enterprise-AI. Claude Code, корпоративные контракты, API, агенты, инфраструктура вокруг моделей - всё это внезапно превращается не в красивую демку, а в гигантский денежный поток.
https://www.ft.com/content/9deae3c6-716d-4f4d-8b09-434d8519f847
👍16❤8🤔7🥰2🤣2
This media is not supported in your browser
VIEW IN TELEGRAM
Mythos обошёл защиту, в которую Apple вложила 5 лет и миллиарды
Три исследователя использовали Anthropic Mythos, чтобы собрать рабочий exploit для macOS kernel. По их словам, он обходит Apple M5 Memory Integrity Enforcement - систему защиты, которую Apple строила годами и продвигала как один из главных барьеров против memory corruption атак.
Таймлайн выглядит жёстко:
- 25 апреля нашли баг
- 1 мая уже был рабочий exploit
- отчёт понесли лично в Apple Park
MIE была флагманской security-фичей для M5 и A19. Apple описывала её как защиту, которая должна резко усложнить целый класс атак на память. По их же исследованиям, MIE ломала все известные публичные exploit chains против современных iOS-устройств.
Исследователи не «сломали» MIE напрямую. Они её обошли. По описанию, атака была data-only: без манипуляций с указателями, через стандартные syscalls, от обычного непривилегированного пользователя до root.
Проблема уже не только в том, что уязвимости всё ещё находятся. Проблема в том, что frontier-модели начинают ускорять самую сложную часть offensive security: связывать баги, проверять гипотезы, искать обходные маршруты и собирать рабочую цепочку быстрее, чем это делала бы обычная команда вручную.
55-страничный технический отчёт обещают выпустить после патча Apple.
Если всё подтвердится, это одна из самых важных cybersecurity-историй года.
https://blog.calif.io/p/first-public-kernel-memory-corruption
Три исследователя использовали Anthropic Mythos, чтобы собрать рабочий exploit для macOS kernel. По их словам, он обходит Apple M5 Memory Integrity Enforcement - систему защиты, которую Apple строила годами и продвигала как один из главных барьеров против memory corruption атак.
Таймлайн выглядит жёстко:
- 25 апреля нашли баг
- 1 мая уже был рабочий exploit
- отчёт понесли лично в Apple Park
MIE была флагманской security-фичей для M5 и A19. Apple описывала её как защиту, которая должна резко усложнить целый класс атак на память. По их же исследованиям, MIE ломала все известные публичные exploit chains против современных iOS-устройств.
Исследователи не «сломали» MIE напрямую. Они её обошли. По описанию, атака была data-only: без манипуляций с указателями, через стандартные syscalls, от обычного непривилегированного пользователя до root.
Проблема уже не только в том, что уязвимости всё ещё находятся. Проблема в том, что frontier-модели начинают ускорять самую сложную часть offensive security: связывать баги, проверять гипотезы, искать обходные маршруты и собирать рабочую цепочку быстрее, чем это делала бы обычная команда вручную.
55-страничный технический отчёт обещают выпустить после патча Apple.
Если всё подтвердится, это одна из самых важных cybersecurity-историй года.
https://blog.calif.io/p/first-public-kernel-memory-corruption
👍18❤8🔥3💔3
Команда сOpenClaw жигает токенов на $1,3 млн в месяц.
Разработчики ставят вопрос - как бы мы писали софт в будущем, если бы токены ничего не стоили?
Их ответ - запускать не одного «помощника для кода», а целую армию агентов вокруг разработки.
У команды постоянно крутится около 100 Codex-инстансов в облаке. Они не просто пишут код по запросу, а закрывают почти весь инженерный контур:
- ревьювят каждый PR
- проверяют каждый commit на security issues
- дедуплицируют issues и ищут кластеры проблем
- поднимают временные окружения для сложных багов
- воспроизводят баг, пишут фикс и прикладывают before/after видео в PR
- следят за новыми issues и автоматически создают PR, если задача совпадает с vision проекта
- проверяют комментарии на спам и банят нарушителей
- гоняют performance benchmarks и кидают регрессии в Discord
- слушают митинги команды и начинают делать PR прямо во время обсуждения фичи
Самое интересное не в том, что это дорого. Самое интересное в том, что это показывает другой стиль разработки.
Обычная команда думает: «Как бы сэкономить токены?»
Они думают наоборот: «Что можно автоматизировать, если токены считать бесплатным инженерным ресурсом?»
Так появляются workflow, где агент не ждёт задачи в чате, а сам живёт вокруг репозитория: читает issues, ищет старые баги после фикса на main, проверяет безопасность, ловит регрессии, пересобирает окружения и пишет отчёты.
Да, $1,3 млн в месяц на токены выглядит безумием.
Но если такая автоматизация позволяет маленькой команде из 3-6 разработчиков поддерживать темп большой инженерной организации, то это уже не игрушка с ИИ. Это эксперимент с будущей экономикой разработки.
Вопрос в том, что произойдёт, когда такой workflow станет стоить не миллионы, а тысячи.
https://x.com/Machinelearrn/status/2055640278732620046
Разработчики ставят вопрос - как бы мы писали софт в будущем, если бы токены ничего не стоили?
Их ответ - запускать не одного «помощника для кода», а целую армию агентов вокруг разработки.
У команды постоянно крутится около 100 Codex-инстансов в облаке. Они не просто пишут код по запросу, а закрывают почти весь инженерный контур:
- ревьювят каждый PR
- проверяют каждый commit на security issues
- дедуплицируют issues и ищут кластеры проблем
- поднимают временные окружения для сложных багов
- воспроизводят баг, пишут фикс и прикладывают before/after видео в PR
- следят за новыми issues и автоматически создают PR, если задача совпадает с vision проекта
- проверяют комментарии на спам и банят нарушителей
- гоняют performance benchmarks и кидают регрессии в Discord
- слушают митинги команды и начинают делать PR прямо во время обсуждения фичи
Самое интересное не в том, что это дорого. Самое интересное в том, что это показывает другой стиль разработки.
Обычная команда думает: «Как бы сэкономить токены?»
Они думают наоборот: «Что можно автоматизировать, если токены считать бесплатным инженерным ресурсом?»
Так появляются workflow, где агент не ждёт задачи в чате, а сам живёт вокруг репозитория: читает issues, ищет старые баги после фикса на main, проверяет безопасность, ловит регрессии, пересобирает окружения и пишет отчёты.
Да, $1,3 млн в месяц на токены выглядит безумием.
Но если такая автоматизация позволяет маленькой команде из 3-6 разработчиков поддерживать темп большой инженерной организации, то это уже не игрушка с ИИ. Это эксперимент с будущей экономикой разработки.
Вопрос в том, что произойдёт, когда такой workflow станет стоить не миллионы, а тысячи.
https://x.com/Machinelearrn/status/2055640278732620046
🤣16❤10👍5😁2🔥1
Forwarded from Machinelearning
Инструмент интегрируется с Claude Code, Cursor и другими кодинг-агентами.
Raindrop - стартап из 9 человек, основанный в 2023 году, который позиционирует себя одним из первых, кто оформил мониторинг для ИИ-агентов как отдельный продуктовый класс.
При использовании Workshop модель получает прямой доступ к трассировкам выполнения, читает их, пишет оценочные тесты и правит код, замыкая цикл самовосстановления.
Если агент в проде отклоняется от ожидаемого поведения, разработчик вызывает кодинг-агента прямо в терминале. Тот читает трассу через Workshop, пишет оценку под падающий сценарий, правит код и перезапускает прогон.
Цикл повторяется автоматически, пока не пройдут все проверки.
Workshop работает локально и стримит данные в реальном времени. Каждый токен, вызов инструмента и шаг рассуждения попадает в интерфейс по мере выполнения, без поллинга.
Есть режим воспроизведение, который берёт трассу из продакшена и прогоняет её через ваш экземпляр агента, запущенный локально.
Заявлена поддержка TypeScript, Python, Go и Rust, а также фреймворков Vercel AI SDK, OpenAI Agents SDK, Anthropic SDK, Claude Agent SDK, LangChain, LangGraph, CrewAI, Mastra, Pydantic AI и DSPy.
@ai_machinelearning_big_data
#AI #ML #Agents #Workshop #RaindropAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤5🥰4
от первого import numpy до LLM, RAG, fine-tuning, AI-агентов и MLOpsа.
Внутри нормальная структура: что учить, в каком порядке, зачем это нужно и что должно получиться на практике после каждого этапа.
Roadmap разбит на 7 треков:
1. Фундамент: Python, математика, статистика, инструменты
2. Классический ML: scikit-learn, табличные данные, метрики, валидация
3. Deep Learning: PyTorch, CNN, RNN, training loop
4. LLM и трансформеры: attention, KV-cache, RAG, LoRA, агенты
5. Generative AI: изображения, видео, аудио, мультимодальность
6. MLOps и прод: Docker, Kubernetes, CI/CD, monitoring, serving
7. Специализация: CV, NLP, RecSys, RL, Safety
Roadmap не продаёт иллюзию “обучил модель - стал ML-инженером”.
В реальной работе много времени уходит на данные, метрики, деплой, мониторинг, воспроизводимость и разбор ошибок. Модель - только часть системы.
Хорошая мысль из roadmap: LLM не делает джуна сеньором. Она ускоряет того, кто уже понимает базу. Без базы человек просто становится оператором Copilot, который не может объяснить, почему всё сломалось.
По времени тоже без сказок:
1. 0-3 месяца: Python, математика, классический ML
2. 3-6 месяцев: Deep Learning и PyTorch
3. 6-12 месяцев: LLM, RAG, fine-tuning, AI-агенты
4. 12+ месяцев: MLOps, прод, масштабирование, специализация
Тут же собрано 7 болших бесплатных курсов по машинному обучению, математике и вайбкодингу!
Если давно хотели зайти в ML системно, а не прыгать между роликами про ChatGPT, Stable Diffusion и “топ-10 библиотек”, это хороший ориентир.
https://github.com/justxor/MachineLearningRoadmap
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18🥴7❤6👍5