Сергей Булаев AI 🤖

Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.

По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!

В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.

Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.

Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.

Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).

А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).

Сергей Булаев AI 🤖 - об AI и не только

11311

2.73K views09:51

Anthropic запустил Claude Code - агента для совместного кодинга

Anthropic выложил ~~бету~~ исследовательское превью Claude Code - агента для помощи в написании кода, который работает прямо в вашем терминале. Это первый продукт Anthropic, который выходит за рамки обычного чата и действует как настоящий агент: умеет просматривать код, редактировать файлы, запускать тесты и даже делать коммиты в GitHub.

Что интересного в Claude Code:

- Прямо в терминале понимает контекст вашего проекта
- Может искать по всей кодовой базе и разбираться в её структуре
- Выполняет команды от вашего имени (тесты, линтинг и пр.)
- Работает с git: ищет в истории, разрешает конфликты, создаёт коммиты и PR
- Использует последнюю модель claude-3-7-sonnet-20250219 по умолчанию

Как начать использовать:
# Установка через npm


npm install -g @anthropic-ai/claude-code

# Переходим в директорию проекта


cd ваш-проект

# Запускаем агента
claude

После этого придётся авторизоваться через OAuth в консоли Anthropic (нужен активный биллинг).
Интересные применения:

# Спросить про код
> как работает наша система аутентификации?

# Автоматизировать git

> сделай коммит моих изменений
> создай PR
> в каком коммите добавили тесты для markdown в декабре?

# Изменить код

> добавь валидацию ввода в форму регистрации
> рефактори логгер для использования нового API

# Тестирование и отладка

> запусти тесты для auth модуля и исправь ошибки
> найди и исправь уязвимости безопасности

А теперь о расходах. Стандартное использование обходится в $5-10 в день на разработчика, но при интенсивном использовании может превышать $100 в час! Следите за расходами командой /cost или в консоли Anthropic.

Для экономии токенов:

- Используйте /compact когда контекст разрастается
- Пишите более конкретные запросы
- Разбивайте сложные задачи на части
- Используйте /clear между задачами

У меня пока не было возможности попробовать (хотя уже установил на все компы, на всякий случай), но выглядит очень интересно. Кто-нибудь уже тестировал?

Сергей Булаев AI 🤖 - об AI и разработке вместе с ним

1884

3.19K views10:15

Сергей Булаев AI 🤖

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

Итак вышел GPT-4.5 (проект Orion)!

Все пишут о наконец то улучшенном эмоциональном интеллекте и творческих способностях. Модель стала больше походить на человека, чем на механического помощника. Меньше отказов, больше естественных ответов, лучше форматирование.

Как понимаете, релиз совпал с выходом Claude 3.7 Sonnet, который наоборот сделал акцент на кодинге, но потерял в "человечности".

По бенчмаркам - GPT-4.5 набрал 64% на Simple QA, почти вдвое больше чем GPT-4. Это значит, что он должен меньше галлюцинировать... хотя на практике явных улучшений пока не видно.

Интересные факты:

- В Every дали GPT-4.5 пройти личностные тесты вместе с GPT-4o! По сравнению с предшественником, 4.5 оказался более экстравертным, открытым, добросовестным и менее невротичным. Забавно, что оба получили эстетику "Тёмная Академия" в тесте BuzzFeed.
- При просьбе исправить и подытожить стенограмму мыслей, GPT-4o следовал инструкциям буквально, а 4.5 часто - предпочитал написать эссе, игнорируя точные указания. Зато текст получался гораздо лучше и читабельнее.
- OpenAI называет стиль письма GPT-4.5 "Orion prose" - текст с паузами и переносами, который лучше звучит при чтении вслух. Они признались, что проектировали 4.5 больше для голосового режима, чем для чтения.
- Модель может быть своенравной - она не обязательно даст точно то, что вы просите, но предложит то, что считает лучшим. - Это раздражает тех, кто привык к послушным ассистентам.
- GPT-4.5 стоит примерно в 20 раз дороже предыдущих моделей! Неудивительно, что OpenAI пока сделала его доступным только для Pro-пользователей.

Модель доступна через API и в профессиональном плане, на плюсе обещают на следующей неделе.

Сергей Булаев AI 🤖 - об AI и не только

132

2.78K views05:17

Сергей Булаев AI 🤖