Сергей Булаев AI 🤖
10.8K subscribers
696 photos
626 videos
2 files
698 links
Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу во Флориде в городе Бока Ратон. Занимаюсь созданием контента на основе оцифрованной памяти человека.

tg: @sergeonsamui
in: linkedin.com/in/sbulaev
Download Telegram
Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.

По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!

В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.

Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.

Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.

Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).

А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).

Сергей Булаев AI 🤖 - об AI и не только
11311
Anthropic запустил Claude Code - агента для совместного кодинга

Anthropic выложил бету исследовательское превью Claude Code - агента для помощи в написании кода, который работает прямо в вашем терминале. Это первый продукт Anthropic, который выходит за рамки обычного чата и действует как настоящий агент: умеет просматривать код, редактировать файлы, запускать тесты и даже делать коммиты в GitHub.

Что интересного в Claude Code:
- Прямо в терминале понимает контекст вашего проекта
- Может искать по всей кодовой базе и разбираться в её структуре
- Выполняет команды от вашего имени (тесты, линтинг и пр.)
- Работает с git: ищет в истории, разрешает конфликты, создаёт коммиты и PR
- Использует последнюю модель claude-3-7-sonnet-20250219 по умолчанию


Как начать использовать:
# Установка через npm
npm install -g @anthropic-ai/claude-code

# Переходим в директорию проекта
cd ваш-проект

# Запускаем агента
claude

После этого придётся авторизоваться через OAuth в консоли Anthropic (нужен активный биллинг).
Интересные применения:

# Спросить про код
> как работает наша система аутентификации?

# Автоматизировать git
> сделай коммит моих изменений
> создай PR
> в каком коммите добавили тесты для markdown в декабре?


# Изменить код
> добавь валидацию ввода в форму регистрации
> рефактори логгер для использования нового API


# Тестирование и отладка
> запусти тесты для auth модуля и исправь ошибки
> найди и исправь уязвимости безопасности


А теперь о расходах. Стандартное использование обходится в $5-10 в день на разработчика, но при интенсивном использовании может превышать $100 в час! Следите за расходами командой /cost или в консоли Anthropic.

Для экономии токенов:
- Используйте /compact когда контекст разрастается
- Пишите более конкретные запросы
- Разбивайте сложные задачи на части
- Используйте /clear между задачами


У меня пока не было возможности попробовать (хотя уже установил на все компы, на всякий случай), но выглядит очень интересно. Кто-нибудь уже тестировал?

Сергей Булаев AI 🤖 - об AI и разработке вместе с ним
1884
Итак вышел GPT-4.5 (проект Orion)!

Все пишут о наконец то улучшенном эмоциональном интеллекте и творческих способностях. Модель стала больше походить на человека, чем на механического помощника. Меньше отказов, больше естественных ответов, лучше форматирование.

Как понимаете, релиз совпал с выходом Claude 3.7 Sonnet, который наоборот сделал акцент на кодинге, но потерял в "человечности".

По бенчмаркам - GPT-4.5 набрал 64% на Simple QA, почти вдвое больше чем GPT-4. Это значит, что он должен меньше галлюцинировать... хотя на практике явных улучшений пока не видно.

Интересные факты:
- В Every дали GPT-4.5 пройти личностные тесты вместе с GPT-4o! По сравнению с предшественником, 4.5 оказался более экстравертным, открытым, добросовестным и менее невротичным. Забавно, что оба получили эстетику "Тёмная Академия" в тесте BuzzFeed.
- При просьбе исправить и подытожить стенограмму мыслей, GPT-4o следовал инструкциям буквально, а 4.5 часто - предпочитал написать эссе, игнорируя точные указания. Зато текст получался гораздо лучше и читабельнее.
- OpenAI называет стиль письма GPT-4.5 "Orion prose" - текст с паузами и переносами, который лучше звучит при чтении вслух. Они признались, что проектировали 4.5 больше для голосового режима, чем для чтения.
- Модель может быть своенравной - она не обязательно даст точно то, что вы просите, но предложит то, что считает лучшим. - Это раздражает тех, кто привык к послушным ассистентам.
- GPT-4.5 стоит примерно в 20 раз дороже предыдущих моделей! Неудивительно, что OpenAI пока сделала его доступным только для Pro-пользователей.


Модель доступна через API и в профессиональном плане, на плюсе обещают на следующей неделе.

Сергей Булаев AI 🤖 - об AI и не только
132
У Pika новинка - PikaFrames! Теперь можно превращать фотографии в видео с уникальными переходами. Выбираете фотки, а затем объединяете, добавляете переходы и трансформируете. Возможностей - масса. Делал это в Runway полгода назад.

Кроме того, они обновили свою модель до Pika 2.2:
- Нативное разрешение 1080p с улучшенным качеством изображения
- Генерация видео длительностью до 10 секунд


Сергей Булаев AI 🤖 - об AI и не только
172
Aidan (кстати работающий в OpenAI), показал рисованную картинку трём моделям и попросил нарисовать тоже самое. Посмотрите что получилось.

Также у него нашёл пример с прогрессом рисования автопортрета по моделям GPT.

Сергей Булаев AI 🤖 - об AI и не только
105