Qwen3.7 уже залетел на Arena😻
Версии
• Qwen3.7-Max-Preview
• Qwen3.7-Plus-Preview
Это пока preview-версии, вот их результаты:
- #6 на Text
- #5 в Vision
Ждём полноценный релиз.
Изначально ожидалось, что её анонсируют и запустят на Alibaba Cloud Summit 20 мая, но, похоже, команда Alibaba Qwen просто не смогла ждать ивент!
chat.qwen.ai
Версии
• Qwen3.7-Max-Preview
• Qwen3.7-Plus-Preview
Это пока preview-версии, вот их результаты:
- #6 на Text
- #5 в Vision
Ждём полноценный релиз.
Изначально ожидалось, что её анонсируют и запустят на Alibaba Cloud Summit 20 мая, но, похоже, команда Alibaba Qwen просто не смогла ждать ивент!
chat.qwen.ai
Cloudflare протестировали закрытый Mythos от Anthropic — и они реально напуганы его мощью 👀
Компания проверила Mythos на 50+ внутренних репозиториях, и модель оказалась настолько хороша, что её пока нельзя выпускать без дополнительных ограничений. Главный ее прикол в том, что нейронка умеет не только искать дыры (в отчете их нашли и другие модели), но и связывать несколько незначительных багов в одну полноценную атаку (!) с готовым PoC.
Причем пока что Mythos доступен практически без защит — то есть его легко уговорить сделать что-то незаконное.
А теперь представьте, если доступ попадет не в те руки💀
Компания проверила Mythos на 50+ внутренних репозиториях, и модель оказалась настолько хороша, что её пока нельзя выпускать без дополнительных ограничений. Главный ее прикол в том, что нейронка умеет не только искать дыры (в отчете их нашли и другие модели), но и связывать несколько незначительных багов в одну полноценную атаку (!) с готовым PoC.
Причем пока что Mythos доступен практически без защит — то есть его легко уговорить сделать что-то незаконное.
А теперь представьте, если доступ попадет не в те руки
Please open Telegram to view this post
VIEW IN TELEGRAM
Внутри Google сформировали специальный внутренний «комитет по компьюту»
Он распределяет доступ к кластерам TPU/GPU среди подразделений и проектов компании и решает, кто получает приоритет, а кто ждет в очереди.
То есть в условиях дефицита ресурсов даже сотрудникам Google приходится буквально конкурировать за железо и шлифовать продажные презентации для внутреннего комитета, чтобы получить квоту на вычисления.
Если квоту не дали, то ты со своим проектом либо останешься ждать в очереди, либо можешь пойти и слезно просить занять компьют у другой команды.
На фоне этого из Google начали уходить исследователи. В основном они перебираются в маленькие стартапы.
Он распределяет доступ к кластерам TPU/GPU среди подразделений и проектов компании и решает, кто получает приоритет, а кто ждет в очереди.
То есть в условиях дефицита ресурсов даже сотрудникам Google приходится буквально конкурировать за железо и шлифовать продажные презентации для внутреннего комитета, чтобы получить квоту на вычисления.
Если квоту не дали, то ты со своим проектом либо останешься ждать в очереди, либо можешь пойти и слезно просить занять компьют у другой команды.
На фоне этого из Google начали уходить исследователи. В основном они перебираются в маленькие стартапы.
Китайские кандзи теперь стали бенчмарком для VLLM
Вышел открытый Chronicles-OCR - новый визуальный бенчмарк для проверки, насколько хорошо мультимодальные модели понимают древние китайские иероглифы.
Идея очень крутая: модели дают не современные аккуратные символы из шрифта, а реальные исторические формы письма за 3000 лет эволюции.
В датасете:
• 7 исторических стилей письма - от гадательных костей до скорописи
• 2800 сбалансированных изображений
• разные физические носители, где символы выглядят совсем не как “чистый OCR”
• задачи на поиск символов, распознавание, разбор древнего текста и классификацию стиля письма
Почему это интересно?
Потому что обычный OCR проверяет, умеет ли модель читать текст. А Chronicles-OCR проверяет другое: понимает ли VLLM, как меняется визуальная форма одного и того же знака во времени, на разных материалах и в разных стилях письма.
Для мультимодальных моделей это больное место. Символ может быть тем же самым по смыслу, но визуально выглядеть как совершенно другой объект. И здесь сразу видно, где модель реально “видит”, а где просто угадывает по паттернам.
Paper: https://arxiv.org/abs/2605.11960
GitHub: https://github.com/VirtualLUOUCAS/Chronicles-OCR
Вышел открытый Chronicles-OCR - новый визуальный бенчмарк для проверки, насколько хорошо мультимодальные модели понимают древние китайские иероглифы.
Идея очень крутая: модели дают не современные аккуратные символы из шрифта, а реальные исторические формы письма за 3000 лет эволюции.
В датасете:
• 7 исторических стилей письма - от гадательных костей до скорописи
• 2800 сбалансированных изображений
• разные физические носители, где символы выглядят совсем не как “чистый OCR”
• задачи на поиск символов, распознавание, разбор древнего текста и классификацию стиля письма
Почему это интересно?
Потому что обычный OCR проверяет, умеет ли модель читать текст. А Chronicles-OCR проверяет другое: понимает ли VLLM, как меняется визуальная форма одного и того же знака во времени, на разных материалах и в разных стилях письма.
Для мультимодальных моделей это больное место. Символ может быть тем же самым по смыслу, но визуально выглядеть как совершенно другой объект. И здесь сразу видно, где модель реально “видит”, а где просто угадывает по паттернам.
Paper: https://arxiv.org/abs/2605.11960
GitHub: https://github.com/VirtualLUOUCAS/Chronicles-OCR
Epoch AI опубликовала модельную оценку полной стоимости владения типовым дата-центром для искусственного интеллекта мощностью один гигаватт.
По расчётам, такой объект потребует около $38 млрд первоначальных капитальных вложений и $900 млн операционных расходов в год.
Если капитальные затраты распределить на срок службы оборудования, совокупная стоимость владения составляет примерно $8,5 млрд в год.
Около 60% этой суммы (порядка $5 млрд) приходится на серверы. Расходы на их фоне невелики: даже электроэнергия, крупнейшая операционная статья, по оценке обойдется в $600 млн в год.
Авторы оговариваются, что это упрощённая финмодель, а не оценка конкретного объекта.
Расчёт описывает гипотетический ЦОД крупного американского оператора облачной инфраструктуры на оборудовании NVIDIA GB200 NVL72.
Реальные издержки могут заметно отличаться в зависимости от выбора серверов, проектирования, расположения, схемы финансирования и стратегии энергоснабжения.
Главная неопределённость расчётов связана со сроком службы IT-оборудования.
Базовый сценарий исходит из 5 лет для серверов и сетевой инфраструктуры и 14 лет для здания. При сроке в 3 года годовая стоимость владения возрастает примерно до $12–13 млрд, при 7 - снижается до $7 млрд.
Оценка опирается на статистику государственного энергорегулятора США, показатели энергоэффективности Lawrence Berkeley Lab, стоимость серверов по выкладкам SemiAnalysis, строительные индексы Turner & Townsend и ряд других источников.
Модель предполагает полное питание от энергосети и не учитывает собственную генерацию, налоговые льготы оценены приблизительно.
Обновлённый расчёт даёт стоимость владения $8,5 млн на мегаватт в год против прежних $10,8 млн.
Снижение авторы объясняют переходом на новое оборудование и пересмотром части исходных данных.
https://xn--r1a.website/ai_machinelearning_big_data/10161
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
В Перми провели крестный ход, чтобы «избавиться от напасти» беспилотников — СМИ
🙏1
Рубль стал лучшей валютой мира по версии Bloomberg — с апреля он укрепился к доллару на 12%, курс уже ₽70.
каждый клик на👏 приближает доллар к 50, но это не точно
каждый клик на
Please open Telegram to view this post
VIEW IN TELEGRAM
👏1
В Linux можно открыть raw socket и увидеть пакеты, которые приходят на сетевую карту.
Без Wireshark.
Без libpcap.
Без лишних инструментов.
Пример из скрина делает простую вещь:
1. создаёт socket уровня
AF_PACKET2. просит у ядра все Ethernet-пакеты через
ETH_P_ALL3. в бесконечном цикле читает их через
recvfrom4. печатает размер каждого пакета
То есть программа буквально говорит ядру:
“Отдавай мне всё, что видит сетевой интерфейс.”
И Linux отдаёт.
Почему это круто?
Потому что так становится понятно, что Wireshark - это не магия. Он тоже получает низкоуровневый трафик от системы, просто красиво его разбирает и показывает.
Обычно разработчик работает с сетью на высоком уровне:
HTTP → TCP → socketА raw socket позволяет спуститься ниже:
Ethernet frame → IP packet → TCP/UDP → payloadНа таком уровне видно, что реально летит по сети: заголовки, размеры пакетов, служебные данные и весь сырой трафик.
Это один из тех примеров, после которых Linux networking перестаёт быть чёрным ящиком.
Please open Telegram to view this post
VIEW IN TELEGRAM
Большой русскоязычный roadmap по машинному обучению: от первого import numpy до LLM, RAG, fine-tuning, AI-агентов и MLOps и даже вабкодинга.
Внутри нормальная структура: что учить, в каком порядке, зачем это нужно и что должно получиться на практике после каждого этапа.
Roadmap разбит на 7 треков:
1. Фундамент: Python, математика, статистика, инструменты
2. Классический ML: scikit-learn, табличные данные, метрики, валидация
3. Deep Learning: PyTorch, CNN, RNN, training loop
4. LLM и трансформеры: attention, KV-cache, RAG, LoRA, агенты
5. Generative AI: изображения, видео, аудио, мультимодальность
6. MLOps и прод: Docker, Kubernetes, CI/CD, monitoring, serving
7. Специализация: CV, NLP, RecSys, RL, Safety
Roadmap не продаёт иллюзию “обучил модель - стал ML-инженером”.
В реальной работе много времени уходит на данные, метрики, деплой, мониторинг, воспроизводимость и разбор ошибок. Модель - только часть системы.
Хорошая мысль из roadmap: LLM не делает джуна сеньором. Она ускоряет того, кто уже понимает базу. Без базы человек просто становится оператором Copilot, который не может объяснить, почему всё сломалось.
По времени тоже без сказок:
1. 0-3 месяца: Python, математика, классический ML
2. 3-6 месяцев: Deep Learning и PyTorch
3. 6-12 месяцев: LLM, RAG, fine-tuning, AI-агенты
4. 12+ месяцев: MLOps, прод, масштабирование, специализация
Тут же собрано 7 болших бесплатных курсов по машинному обучению, математике и вайбкодингу!
Если давно хотели зайти в ML системно, а не прыгать между роликами про ChatGPT, Stable Diffusion и “топ-10 библиотек”, это хороший ориентир.
https://github.com/justxor/MachineLearningRoadmap
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Бьёрн Страуструп, легендарный создатель C++, в новом двухчасовом интервью резко прошёлся по вайбкодингу.
Главная претензия простая: сгенерированный код пока слишком часто выглядит красиво только на демке. В реальном проекте он приносит баги, раздувает кодовую базу, плодит уязвимости и плохо поддаётся нормальной проверке.
Особенно больно это бьёт по опытным разработчикам. Им потом приходится не “магически ускоряться с ИИ”, а читать, чинить и переписывать слоп, который кто-то нагенерировал за пять минут.
Похожая история уже достала и Линуса Торвальдса. Его буквально завалили кривыми AI-отчётами по ядру Linux: вроде бы люди “помогают”, а на практике создают шум, который мешает настоящей разработке.
И вот тут неприятный вывод для рынка:
ИИ не отменяет инженерное мышление.
Он просто делает слабого разработчика быстрее.
А если человек не понимает архитектуру, безопасность, тесты и границы задачи, то вайбкодинг превращается не в ускорение, а в генератор технического долга.
Сеньоры не боятся ИИ.
Они просто не хотят провести остаток карьеры, разгребая чужой промптованный мусор.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ SkyClaw-v1.0: новая модель под tool use и агентные задачи
Skywork представила SkyClaw-v1.0 - агентную модель, оптимизированную под OpenClaw, Hermes и Nanobot.
Фокус на сценариях, где модель должна работать с инструментами и вести задачу в несколько ходов: выбрать tool, собрать аргументы, обработать ответ, продолжить выполнение и не развалиться на длинной цепочке действий.
Вместе с основной версией вышла SkyClaw-v1.0-lite - более быстрая и дешёвая версия для сценариев, где важна стоимость запуска.
Модель обучали в собственном окружении OpenClaw: с качественными инструментами и синтетическими задачами, собранными из реальных пользовательских паттернов. То есть её специально подгоняли под агентную работу, а не просто добавили tool calling поверх обычной языковой модели.
По заявлению Skywork, на PinchBench, Claw-Eval и Skywork-Claw-Bench обе версии обходят:
- Minimax 2.7
- DeepSeek V4 Flash
- Qwen 3.6 35B A3B
- Qwen 3.6 27B
https://www.apifree.ai/model/skywork-ai/skyclaw-v1?tab=api
Skywork представила SkyClaw-v1.0 - агентную модель, оптимизированную под OpenClaw, Hermes и Nanobot.
Фокус на сценариях, где модель должна работать с инструментами и вести задачу в несколько ходов: выбрать tool, собрать аргументы, обработать ответ, продолжить выполнение и не развалиться на длинной цепочке действий.
Вместе с основной версией вышла SkyClaw-v1.0-lite - более быстрая и дешёвая версия для сценариев, где важна стоимость запуска.
Модель обучали в собственном окружении OpenClaw: с качественными инструментами и синтетическими задачами, собранными из реальных пользовательских паттернов. То есть её специально подгоняли под агентную работу, а не просто добавили tool calling поверх обычной языковой модели.
По заявлению Skywork, на PinchBench, Claw-Eval и Skywork-Claw-Bench обе версии обходят:
- Minimax 2.7
- DeepSeek V4 Flash
- Qwen 3.6 35B A3B
- Qwen 3.6 27B
https://www.apifree.ai/model/skywork-ai/skyclaw-v1?tab=api
На UNIX
И из-за этого можно поймать очень неприятный эффект: если закрыть
То есть код вроде этого:
Может записать printf не в терминал, а прямо в output.txt.
Потому что система обычно выдаёт минимальный свободный файловый дескриптор. Закрыл 1 - значит он снова свободен. Открыл файл - он может стать новым stdout.
Мелочь, но именно из таких мелочей и состоит настоящее понимание UNIX.
stdout - это просто файловый дескриптор 1.И из-за этого можно поймать очень неприятный эффект: если закрыть
stdout, следующий открытый файл может получить тот же дескриптор 1.То есть код вроде этого:
close(1);
FILE *f = fopen("output.txt", "w");
printf("hello\n");
Может записать printf не в терминал, а прямо в output.txt.
Потому что система обычно выдаёт минимальный свободный файловый дескриптор. Закрыл 1 - значит он снова свободен. Открыл файл - он может стать новым stdout.
Мелочь, но именно из таких мелочей и состоит настоящее понимание UNIX.
This media is not supported in your browser
VIEW IN TELEGRAM
Сервер доступен по адресу
mcp.bfl.ai и позволяет создавать и редактировать изображения в чат-клиентах, поддерживающих этот протокол. Заявлена совместимость с Claude, Cursor, Codex, Windsurf и другими MCP-клиентами.MCP-сервер предоставляет несколько инструментов: генерацию до 8 изображений параллельно, создание вариаций на основе предыдущего результата, просмотр истории запросов и проверку остатка средств на счёте.
Нужную модель клиент выбирает автоматически в зависимости от запроса. Доступно несколько моделей линейки FLUX.2: от быстрой Klein до топовой Мax.
Оплата, согласно документации, производится напрямую BFL: счёт выставляется той организации, которая была выбрана при авторизации.
Актуальные тарифы - на странице bfl.ai/pricing.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Бывший CEO Google Эрик Шмидт выступил на выпускной церемонии Университета Аризоны с речью про ИИ.
Когда он сказал:
И зал раздался свистом.
Студенты воспринимают это так:
Но с другой стороны, они находятся в лучшей позиции, чем предшественники и могут использовать мощные ИИ-инструменты уже на самом старте своей карьеры.
Когда он сказал:
Вам не обязательно интересоваться ИИ. Какую бы карьеру вы ни выбрали, ИИ всё равно будет ее частью.
И зал раздался свистом.
Студенты воспринимают это так:
Вам придётся конкурировать с машинами за вашу первую работу.
Но с другой стороны, они находятся в лучшей позиции, чем предшественники и могут использовать мощные ИИ-инструменты уже на самом старте своей карьеры.
Андрей Карпаты перешёл в Anthropic
Один из самых известных людей в индустрии — сооснователь OpenAI, бывший директор по ИИ в Tesla, автор легендарных лекций по нейросетям - официально объявил о переходе в Anthropic.
В твите он написал, что ближайшие несколько лет на фронтире LLM будут особенно формирующими, и он рад вернуться к R&D в команде Anthropic. Образовательные проекты, включая Eureka Labs, обещает не бросать и вернуться к ним позже.
Карпаты последние пару лет фактически был «свободным агентом» - выпускал собственные туториалы, строил Eureka Labs, считался одной из самых независимых фигур в ИИ.
Его выбор в пользу Anthropic, а не OpenAI, xAI или Google, многое говорит о том, где сейчас концентрируется самая интересная исследовательская работа.
С учётом недавнего policy paper Anthropic про 2028 год и фронтирные модели — у компании явно идёт серьёзная фаза найма под большие задачи.
https://x.com/karpathy/status/2056753169888334312
Один из самых известных людей в индустрии — сооснователь OpenAI, бывший директор по ИИ в Tesla, автор легендарных лекций по нейросетям - официально объявил о переходе в Anthropic.
В твите он написал, что ближайшие несколько лет на фронтире LLM будут особенно формирующими, и он рад вернуться к R&D в команде Anthropic. Образовательные проекты, включая Eureka Labs, обещает не бросать и вернуться к ним позже.
Карпаты последние пару лет фактически был «свободным агентом» - выпускал собственные туториалы, строил Eureka Labs, считался одной из самых независимых фигур в ИИ.
Его выбор в пользу Anthropic, а не OpenAI, xAI или Google, многое говорит о том, где сейчас концентрируется самая интересная исследовательская работа.
С учётом недавнего policy paper Anthropic про 2028 год и фронтирные модели — у компании явно идёт серьёзная фаза найма под большие задачи.
https://x.com/karpathy/status/2056753169888334312
Google выкатили сразу два больших релиза: Gemini Omni и Gemini 3.5 Flash
Похоже, Google снова пытается перехватить повестку в ИИ.
Первый релиз - Gemini Omni. Это семейство мультимодальных моделей, которые работают почти со всем сразу: текстом, кодом, изображениями, видео и даже виртуальными мирами.
Модель может принимать разные типы контента и не просто «понимать» их, а редактировать, дополнять и превращать в новые форматы:
- добавить эффекты в видео со смартфона
- сделать картину из грубого наброска
- собрать образовательный подкаст по фото
- работать с кодом, текстом, визуалом и видео в одном контексте
Первая модель семейства - Gemini Omni Flash - должна стать доступна уже сегодня.
Второй релиз - Gemini 3.5 Flash.
Google называет её своей самой сильной моделью для агентов и кодинга. Главное отличие - не просто быстрые ответы, а способность планировать работу по большим кодовым базам, рассуждать на длинной дистанции и запускать subagents параллельно.
По словам Google DeepMind, Gemini 3.5 Flash обходит 3.1 Pro на agentic и coding-бенчмарках вроде Terminal-Bench 2.1, GDPval-AA и MCP Atlas, при этом стоит заметно дешевле фронтирных моделей.
Если коротко:
- Gemini Omni - модель для всего: текст, код, картинки, видео, миры
- Gemini 3.5 Flash - ставка на агентов, кодинг и работу с большими проектами
Интересно, насколько хорошо модель будет работать как исполнитель: в IDE, браузере, видео, агентных workflow и реальных продуктах.
Релиз https://x.com/GoogleDeepMind/status/2056786446636212467
Попробовать: https://gemini.google.com/app
Похоже, Google снова пытается перехватить повестку в ИИ.
Первый релиз - Gemini Omni. Это семейство мультимодальных моделей, которые работают почти со всем сразу: текстом, кодом, изображениями, видео и даже виртуальными мирами.
Модель может принимать разные типы контента и не просто «понимать» их, а редактировать, дополнять и превращать в новые форматы:
- добавить эффекты в видео со смартфона
- сделать картину из грубого наброска
- собрать образовательный подкаст по фото
- работать с кодом, текстом, визуалом и видео в одном контексте
Первая модель семейства - Gemini Omni Flash - должна стать доступна уже сегодня.
Второй релиз - Gemini 3.5 Flash.
Google называет её своей самой сильной моделью для агентов и кодинга. Главное отличие - не просто быстрые ответы, а способность планировать работу по большим кодовым базам, рассуждать на длинной дистанции и запускать subagents параллельно.
По словам Google DeepMind, Gemini 3.5 Flash обходит 3.1 Pro на agentic и coding-бенчмарках вроде Terminal-Bench 2.1, GDPval-AA и MCP Atlas, при этом стоит заметно дешевле фронтирных моделей.
Если коротко:
- Gemini Omni - модель для всего: текст, код, картинки, видео, миры
- Gemini 3.5 Flash - ставка на агентов, кодинг и работу с большими проектами
Интересно, насколько хорошо модель будет работать как исполнитель: в IDE, браузере, видео, агентных workflow и реальных продуктах.
Релиз https://x.com/GoogleDeepMind/status/2056786446636212467
Попробовать: https://gemini.google.com/app
Итак, Google I/O. Основные релизы:
1️⃣ Gemini 3.5 Flash. По бенчмаркам обходит Gemini 3.1 Pro в кодинге, агентных задачах и на мультимодальности, при этом выдает скорость чуть меньше 300 токенов в секунду: это заметно быстрее GPT-5.4 mini и Claude Haiku, и примерно в 4 раза быстрее Opus, Sonnet и GPT-5.5. На презентации также показывали версию, выдающую почти 1500 токенов в секунду. Цена тоже намного доступнее Pro версий, GPT и Opus.
Gemini 3.5 Pro пообещали выпустить в следующем месяце. Gemini 3.5 Flash уже можно попробовать в Antigravity.
2️⃣ Gemini Omni. Как написали Google, это "первый шаг на пути к моделям, которые могут генерировать что угодно из чего угодно". В текущей версии Omni ограничена генерацией видео. На входе может быть текст, изображения, видео и голос, на выходе вы получаете видео. Качество генераций – конкурентоспособное, физика не страдает, фотореалистичность на уровне. Попробовать можно в приложении Gemini.
3️⃣ Antigravity 2.0. Добавили: всякие возможности для оркестрации параллельных агентов и субагентов, фоновые задачи, нативную поддержку голосовых команд. Выпустили Antigravity CLI (на замену Gemini CLI) и Antigravity SDK для создания кастомных агентов. На презентации показали, как система собрала рабочую операционку, на которой можно запустить Doom. На это понадобилось менее 12 часов, 96 агентов и менее 1 тысячи долларов.
4️⃣ Ну и по мелочи:
– полностью обновили интерфейс Gemini App, теперь ответы больше похоже на интерактивные страницы;
– для подписчиков AI Plus, Pro и Ultra добавили Daily Brief: персонализированный дайджест дня на основе Gmail, Календаря и задач;
– для Ultra теперь предлагают Gemini Spark: личного агента, который работает постоянно даже при выключенном ноутбуке и выполняет за вас задачи. Пока что интеграции только с инструментами Google, но обещают скоро добавить и другие;
– подписка Google AI Ultra теперь стартует от $100/месяц (раньше было от $250), а тариф за $250 подешевел до $200 без урезания возможностей и лимитов;
– анонсировали умные очки и новые ноутбуки Googlebooks.
Gemini 3.5 Pro пообещали выпустить в следующем месяце. Gemini 3.5 Flash уже можно попробовать в Antigravity.
– полностью обновили интерфейс Gemini App, теперь ответы больше похоже на интерактивные страницы;
– для подписчиков AI Plus, Pro и Ultra добавили Daily Brief: персонализированный дайджест дня на основе Gmail, Календаря и задач;
– для Ultra теперь предлагают Gemini Spark: личного агента, который работает постоянно даже при выключенном ноутбуке и выполняет за вас задачи. Пока что интеграции только с инструментами Google, но обещают скоро добавить и другие;
– подписка Google AI Ultra теперь стартует от $100/месяц (раньше было от $250), а тариф за $250 подешевел до $200 без урезания возможностей и лимитов;
– анонсировали умные очки и новые ноутбуки Googlebooks.
Please open Telegram to view this post
VIEW IN TELEGRAM
Claude Computer Use: Anthropic наконец объяснила, почему агенты промахиваются по кнопкам
Anthropic выложила практический гайд по computer/browser use для Claude. И там не про «магических агентов будущего», а про скучную инженерию, из-за которой агент либо работает, либо кликает мимо кнопки.
Главный инсайт: точность кликов часто ломается не из-за модели, а из-за скриншотов.
Если отправлять в API нативный 4K-скрин, Claude всё равно может увидеть его в уменьшенном виде. Модель возвращает координаты по одной картинке, а ваш harness кликает по другой системе координат. Итог - стабильные промахи.
Что рекомендует Anthropic:
- заранее downscale скриншотов
- для Claude 4.6 держаться около 1280×720
- для Opus 4.7 можно начинать с 1080p
- не отправлять native 4K без подготовки
- всегда масштабировать координаты обратно в реальный экран
- сначала давать текстовую инструкцию, потом изображение
- для мелких UI-элементов включать zoom или использовать клавиатуру
- логировать transcript и накладывать predicted clicks поверх скриншота
Отдельно интересно про модели. Sonnet 4.6 у них точнее для механических кликов, Opus 4.7 уже почти догнал по click accuracy, но даёт больше reasoning и больший pixel budget.
Самый полезный вывод: browser agent - это не «дал промпт и забыл».
Это система из модели, скриншотов, координат, DPI, zoom, DOM, клавиатуры, логов и fallback-методов. Если хотя бы один слой настроен криво, агент будет выглядеть глупым, хотя проблема вообще не в интеллекте модели.
Агенты становятся реальными не тогда, когда модель «умнее».
А тогда, когда вокруг неё собран нормальный runtime.
https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude
Anthropic выложила практический гайд по computer/browser use для Claude. И там не про «магических агентов будущего», а про скучную инженерию, из-за которой агент либо работает, либо кликает мимо кнопки.
Главный инсайт: точность кликов часто ломается не из-за модели, а из-за скриншотов.
Если отправлять в API нативный 4K-скрин, Claude всё равно может увидеть его в уменьшенном виде. Модель возвращает координаты по одной картинке, а ваш harness кликает по другой системе координат. Итог - стабильные промахи.
Что рекомендует Anthropic:
- заранее downscale скриншотов
- для Claude 4.6 держаться около 1280×720
- для Opus 4.7 можно начинать с 1080p
- не отправлять native 4K без подготовки
- всегда масштабировать координаты обратно в реальный экран
- сначала давать текстовую инструкцию, потом изображение
- для мелких UI-элементов включать zoom или использовать клавиатуру
- логировать transcript и накладывать predicted clicks поверх скриншота
Отдельно интересно про модели. Sonnet 4.6 у них точнее для механических кликов, Opus 4.7 уже почти догнал по click accuracy, но даёт больше reasoning и больший pixel budget.
Самый полезный вывод: browser agent - это не «дал промпт и забыл».
Это система из модели, скриншотов, координат, DPI, zoom, DOM, клавиатуры, логов и fallback-методов. Если хотя бы один слой настроен криво, агент будет выглядеть глупым, хотя проблема вообще не в интеллекте модели.
Агенты становятся реальными не тогда, когда модель «умнее».
А тогда, когда вокруг неё собран нормальный runtime.
https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude