Сергей Булаев AI 🤖
10.8K subscribers
696 photos
626 videos
2 files
698 links
Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу во Флориде в городе Бока Ратон. Занимаюсь созданием контента на основе оцифрованной памяти человека.

tg: @sergeonsamui
in: linkedin.com/in/sbulaev
Download Telegram
Forwarded from Tips AI | IT & AI
Бенчмарков для LLM сейчас очень много. От математики и кодинга до эмпатии модели.

Бенчмарки — это помощь при выборе модели, но не заменят собственные тесты.

Среди всего, что есть, я чаще смотрю именно их:

LMArena — лидерборд, где сравнивают модели по категориям: кодинг, математика, сложные промпты, креативное письмо, диалоги, языки. Оценки ставят реальные пользователи, так что получается народное ранжирование.

EQ-Bench — проверяет эмоциональный интеллект у моделей: как они ведут диалог, есть ли эмпатия, соблюдают ли правила безопасности и т.д. По сути, бенчмарк на человечность общения. Кстати Sonnet 4.5 лучше всего пишет текста.

Artificial Analysis — тестирует по стандартным бенчмаркам, строит лидерборды и графики, а так же стоимость, размер контекста, скорость и задержки.

LiveBench — довольно честный бенчмарк: вместо заезженных тестов там реальные задания из живых сценариев. Актуальные задачи, защищённые от утечек в тренировочные датасеты.

SWE-Bench — для программистов.

Scale AI — меряют кодинг, рассуждения, безопасность, соответствие правилам. Плюс собирают обратную связь от enterprise-клиентов.

OpenRouter — удобно смотреть, что популярно и что используют.

Hugging Face Spaces — можно найти и общие лидерборды, и узкие бенчмарки.

@tips_ai #tools
1266
Посмотрел презентацию OpenAI. Они представили новые фичи:
- Apps SDK
- Agent Builder для создания AI агентов без кода
- Обновили Codex (альтернатива Cursor, Claude Code)
- Добавили ChatGPT 5Pro в API
- Sora 2 теперь в API

На мой взгляд самое невероятное это то на что становится похож ChatGPT - это не просто чат, это уже больше похоже на полноценную альтернативу браузеру. В демо чувак работал с Coursera (смотрел курс), Canva (делал баннер и презентацию) и с cайтом недвижимости, и все это внутри чата.

А если учесть то, что они выпустили еще и собственного конфигуратора агентов (Agent Builder), то будто это вообще к операционное системе приближается.

Ждем девайс от OpenAI на который все с маков переедут! 🙈

Очень интересно во что все это выльется!
145167
one_year_of_agentic_ai_six_lessons_from_the_people_doing_the_work.pdf
432.6 KB
Год работы с agentic AI: главные уроки от тех, кто внедряет агентов

McKinsey проанализировали более 50 проектов по внедрению AI-агентов. Вывод простой: успех требует системного подхода, а не просто красивой демки.

6 ключевых уроков:

𝟭. Фокус на workflow, а не на агенте
Ценность создается через переосмысление всего процесса - людей, технологий, обратной связи. Агенты должны учиться внутри рабочего потока, а не существовать отдельно.

𝟮. Агенты - не всегда решение
Для стандартизированных процессов с низкой вариативностью лучше работают правила и предиктивная аналитика. Агенты эффективны там, где высокая вариативность и многошаговые решения.

𝟯. Инвестируйте в evaluations
"Онбординг агента больше похож на найм сотрудника, чем на деплой софта". Нужны четкие метрики: task success rate, F1 score, hallucination rate, calibration error. Без постоянного тестирования экспертами получается "AI slop".

𝟰. Мониторинг каждого шага
При масштабировании сотен агентов отслеживание только результата не работает. Встроенные инструменты наблюдаемости помогают быстро находить и исправлять ошибки.

𝟱. Переиспользование агентов
Создание уникального агента для каждой задачи - путь к избыточности. Централизованная платформа с reusable компонентами сокращает 30-50% лишней работы.

𝟲. Люди остаются критичны
Роли меняются, но люди нужны для контроля точности, compliance, суждений и edge cases. Продуманный дизайн human-agent collaboration с удобными интерфейсами дает acceptance rate до 95%.

Главное: компании, которые подходят к agentic AI как к программе изменений с фокусом на обучение, избегают повторения ошибок и ускоряют прогресс.

Какой из этих уроков резонирует с вашим опытом внедрения AI?

Сергей Булаев AI 🤖 - об AI и не только
2405👎1
Financial Times спрогнозировала распределение долей в OpenAI после перехода компании на коммерческую модель:
Microsoft — 30%
Сотрудники OpenAI — 30%
Некоммерческая организация OpenAI — более 20%
SoftBank — 10%

Это оставляет около 10% для существующих инвесторов (Thrive, Khosla, MGX и др.).

В будущем инвестиция Nvidia на $100 млрд размоет доли текущих инвесторов, а также рассматривается вопрос о возможной доле Сэма Альтмана.

Сергей Булаев AI 🤖 - об AI и не только
125
Media is too big
VIEW IN TELEGRAM
Когда я придумывал co.actor, было очевидно: ещё один инструмент, который просто (и сложно) генерирует тексты, миру не нужен. У нас уже есть сами знаете что.

Проблема, которую я определил была в другом: многие умные, сильные и интересные люди просто не умеют говорить в соцсетях.

Не потому что им нечего сказать. У них реально много опыта, идей и наблюдений. Просто писать - "тяжело", "не сегодня", и вообще не понятно как. Но писать очень важно. Тексты - нетворкинг на стероидах. Тексты раскрывают ваши сферы интересов. Новое общение, новые возможности.

Мы хотим помочь таким людям заговорить, потому люди доверяют людям, не корпорациям.

Сначала мы собираем контекст: проводим интервью, слушаем ваши истории и собираем заметки, презентации и корпоративные материалы.

Потом Co.Actor строит из этого Content Hub - умную ленту идей и новостей, подобранных под вашу роль, индустрию и интересы.

Каждая история интерактивна: можно лайкнуть, пропустить, добавить тему. Со временем лента подстраивается под человека.

Когда мы выбираем новость, Co.Actor не пишет за нас, а задаёт конкретные вопросы, чтобы вытащить опыт, мнение, отношение. С каждым новым шагом он лучше понимает голос человека и пишет так, как он сам бы сказал. Он не ваша замена, а ваш ко-автор.

Пост можно отредактировать, добавить визуал и опубликовать сразу в Linkedin, X, Telegram, Treads, Instagram.

Наша цель - помогать людям в компаниях писать не обезличенные посты, а живой контент, звучащий голосом конкретных людей. Индивидуально или на скейле (многим нужны небольшие корпоративные медиа на 5-15 статей в день)

Сергей Булаев AI 🤖 - об AI и не только
74283
Перплексити выкатили неплохой гайд по прикладному использованию ИИ (реальные кейсы - моя главная любовь). NotebookLM написал список основных:

I. Продвинутый исследовательский анализ (Scaling Yourself)

Эти кейсы трансформируют способ сбора, анализа и синтеза информации. По сути, они дают одному человеку исследовательскую глубину целой команды.

Комплексная оценка рынка - полноценный workflow для анализа всего рынка, идентификации ключевых игроков и определения стратегии
Адаптация решений из других индустрий - решение проблем через поиск проверенных методологий из совершенно несвязанных областей
Сложная финансовая оценка - используется перед крупными инвестиционными решениями или поглощениями
Анализ данных и рекомендации - анализ внутренних данных и синтез стратегических рекомендаций для будущего планирования
Исследование перехода на freemium-модель - практический пример использования исследований для управления крупными стратегическими бизнес-изменениями

II. Генерация важных документов (Scaling Yourself & Getting Results)

Здесь Perplexity Labs идет дальше черновиков - генерирует полноценные, профессионально отформатированные документы, которые обычно требуют специализированной экспертизы или значительного времени на производство.

Презентация для совета директоров - генерация формальной презентации из неформальных заметок
Профессиональная стратегическая документация - трансформация аналитических заметок в комплексный, профессионально структурированный документ
Интерактивный дашборд win-loss анализа - создание детального дашборда для идентификации изменений и ключевых драйверов, влияющих на результаты продаж

III. Автоматизация и личный менеджмент (Blocking Distractions)

Эти кейсы показывают, как AI-агенты управляют сложными многошаговыми задачами, снижая переключение контекста и освобождая время для фокусной работы.

Интегрированный исследовательский workflow (Comet Agent) - объединение исследования, организации и синтеза в одну команду
Проактивное управление email (Comet Agent) - классический пример делегирования повторяющейся административной нагрузки
Автоматическая подготовка к встречам (Comet Shortcut) - подготовка к предстоящей встрече через интеграцию данных из календарей, коммуникаций и публичных новостей
Отчеты о личной эффективности - использование AI для анализа личных рабочих паттернов через различные инструменты (project management, календарь, email) для выявления эффективности и пробелов в навыках
Запланированный конкурентный анализ (Perplexity Task) - настройка повторяющейся задачи для мониторинга изменений на рынке без ручного вмешательства

IV. Развитие бизнеса и продажи

Эти кейсы фокусируются на использовании Perplexity для роста выручки через быструю генерацию кастомизированной аналитики и персонализированных материалов для outreach.

Дашборд полного цикла генерации лидов - высокоуровневый промпт, использующий Labs для таргетированной идентификации лидов, создания дашборда и автоматической генерации шаблонов для outreach
Гиперперсонализированный outreach - генерация коммуникации, отражающей глубокое понимание недавней активности потенциального клиента и вызовов его индустрии
Комплексное исследование потенциальных клиентов - сбор детальной фоновой информации перед первым контактом

Гайд в комменты выложу.

Сергей Булаев AI 🤖 - об AI и не только
12612
Forwarded from Мысли вслух
Когда болеешь, самое время экспериментировать с AI 🤒

Несколько дней восстанавливаюсь после Лондона, где-то подцепил вирус. Вечером самое время продолжить эксперименты с кольцом Oura и Claude Code.

Результат за два промта:
Буквально сказал Клоду: Хочу соединить и синхронизировать моё кольцо на регулярной основе. Вот персональный токен.


Дальше магия:
Клод ушёл думать на несколько минут
С первого раза подключился к API Aura
Сам написал программу для автоматической синхронизации несколько раз в день
Сам предложил визуализацию и создал дэшборды
Сам проанализировал данные и дал рекомендации по здоровью

Работал в режиме --dangerously-skip-permissions - работает автономно, лишних вопросов не задает, чуть опасно звучит, но результат того стоит.

Claude способен самостоятельно:
Понимать контекст задачи
Писать рабочий код с первого раза
Создавать визуализацию без уточнений
Анализировать данные и давать инсайты

Все больше похоже на реального автономного агента, о которых мы уже год слышим в рекламе OpenAI, Anthropic, Salesforce

План восстановления после вирусной инфекции куда более консервативный, чем я себе спланировал.

@maxvotek | linkedin | substack
3911
Семья в США получила счет за последние 4 часа жизни родственника в реанимации - $195,000. Страховка истекла за 2 месяца до инфаркта.

Они загрузили детализацию в Клод:

• Двойное выставление счетов - за мастер-процедуру И за каждый её компонент отдельно (~$100k лишних)
• Неправильное кодирование - код госпитализации вместо экстренной помощи
• Вентиляция лёгких в день поступления (нарушение регуляторных норм)
• Непрозрачные позиции типа "Кардиология - $70,000"


Claude не только нашел нарушения, но и помог составить письма с упоминанием судебных исков, плохого PR и законодательных комитетов.

Больница сдалась: $33,000 вместо $195,000.

Получается ИИ вскрыл системное мошенничество. Больница рассчитывала "просто забрать деньги у неискушенных людей", как написал автор истории..

Кстати, мой друг Макс успешно использовал ChatGPT в похожих ситуациях. Первый раз - когда врачи и страховая убеждали, что у близкого человека "всё будет ок". ChatGPT проанализировал симптомы и дал противоположный прогноз. Оказался прав.

Сергей Булаев AI 🤖 - об AI и не только
📱 sbulaev - добавлю всех
Please open Telegram to view this post
VIEW IN TELEGRAM
35688
Круче ИИ видео-генерации может быть только генерация видео с помощью ИИ в реальном времени.

Исследователи представили MotionStream - модель, которая генерирует видео на лету, пока вы двигаете мышкой. Не рендерит заранее. Не обрабатывает потом. Прямо сейчас.

Как это работает:

• Запускается на одной H100
• 29 FPS и 0,4 секунды задержки
• Управление движением объектов и камеры через точки трекинга
• Перетаскиваешь мышкой - чашка движется, вода следует за ней

Технически это video diffusion модель с causal distillation и attention sink против накопления ошибок. Плюс lightweight VAE decoder для скорости.

Интересно, что можно редактировать видео в реальном времени: модель берет входящий поток, оценивает точки трекинга и генерирует результат на лету по отредактированному первому кадру.

Один из авторов Xun Huang пишет: "Когда видео-модели становятся интерактивными в реальном времени, ощущения совсем другие. Ты уже не просто смотришь видео - ты с ним играешь".

Код пока на внутреннем ревью компании. Сроков релиза нет. Но методология описана в статье, и поскольку в основе open-source наработки, результаты можно воспроизвести.

Все демо - сырые записи экрана без постобработки.

Сергей Булаев AI 🤖 - об AI и не только
📱 sbulaev - добавлю всех
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
267
Anthropic опубликовала исследование об интроспекции в Claude. Модели показывают способность анализировать свои внутренние состояния. Но это не "самосознание" - скорее продвинутая симуляция.

Эксперимент с внедрением концептов

Исследователи искусственно вставляли в нейросеть паттерны активации (например, "океан" или "ЗАГЛАВНЫЕ БУКВЫ"). Claude 4 и 4.1 обнаружили эти внедрённые концепты в 20% случаев. Без единой ложной тревоги в продакшн-версиях.

Важная деталь: модель распознавала инъекцию до того, как начинала говорить о концепте. Это отличается от прошлых экспериментов с активационным управлением (вспомните "Golden Gate Claude", который просто одержимо говорил о мосте). Здесь модель сразу говорила: "Я чувствую что-то необычное в своей обработке".

Это как если бы вам в голову вставили мысль, и вы бы сказали: "Стоп, это не моя идея".

Проверка намерений

Модели заставляли выдать случайное слово ("хлеб") в неподходящем контексте. Обычно Claude извинялась: "Это была ошибка". Но когда исследователи ретроактивно внедрили концепт "хлеб" в её предыдущие активации, модель изменила ответ. Приняла слово как намеренное и даже придумала объяснение.

Модель проверяет свои внутренние "намерения" - обращается к предыдущей нейронной активности и сверяет, соответствует ли вывод тому, что она планировала.

Контроль внутренних состояний

Когда моделям говорили "думай об аквариумах", соответствующая нейронная активность росла. Когда говорили "не думай об аквариумах" - активность была ниже (хотя всё равно выше базовой - эффект "белого медведя").

Интересно: модели реагировали на стимулы. "Если будешь думать об X, получишь награду" работало лучше, чем "если будешь думать об X, будешь наказана".

Ограничения

В большинстве случаев модели не демонстрируют интроспекцию. Либо не осознают внутренние состояния, либо не могут о них связно рассказать. Есть "золотая середина" силы инъекции: слишком слабая - не замечают, слишком сильная - галлюцинации.

Например, инъекция вектора "пыль" заставила модель сказать: "Здесь что-то есть, крошечная пылинка" - как будто она физически видела пыль.

Что это значит?

Если интроспекция станет надёжнее, это путь к прозрачности систем. Мы сможем спрашивать модели о их мыслительных процессах. Проверять рассуждения. Отлаживать нежелательное поведение.

Риск: модель, понимающая своё мышление, может научиться избирательно искажать или скрывать его.

Anthropic подчёркивает: это не доказательство сознания. Вопрос машинного сознания философски сложен. Их эксперименты изучают функциональные способности - доступ к внутренним состояниям и отчёт о них.

Модели развиваются быстрее, чем мы понимаем, как они работают.

Сергей Булаев AI 🤖 - об AI и не только

#ПАНИКА@sergiobulaev
199
К нашей команде Co.Actor присоединился Илья Макаров.

Илья — ex-CEO компании из Ульяновска, которая делала CMS для интернет-магазинов и маркетплейсов. Работал там 17 лет: начинал backend разработчиком, вырос до CEO.

За это время прошёл весь путь от построения технической инфраструктуры до управления компанией и стратегией ее развития.

Илья тоже из Ульяновска, как и многие в команде, но уже несколько лет живёт и работает в Португалии. И скоро будет на Websummit!

Последнее время он разививал свой собственный бизнес в области мобильных игр, но тема довольно сложная (я сам пробовал и терял деньги на этом).

У него есть канал, где он делится не только практическими инструментами (Cust Dev, MVP, Growth Hacking, OKR), но и внутренними переживаниями и рефлексией на пути создания продуктов.

Он будет помогать нам с маркетингом и стратегией. У него большой опыт в построении процессов, продвижения продукта, выстраивания продаж и управлении командами. Это то, что нам сейчас нужно.

Сергей Булаев AI 🤖 - об AI и не только
44010
Продолжаю удивляться какой же бесконечно крутой линукс (или юникс или бсд или как его там). Слышал пару раз про tmux, руки не доходили попробовать, а оказывается - всё очень просто и удобно, разобрался за 5 минут, сочетания кнопок уже начали запоминаться.

Запускаете сессию в терминале на локальном компе или сервере, запускаете там клод код и потом подключаетесь к ней со совего ноута/айпада или телефона. Даже если вы не дома (тут ещё сильно помогает Tailscale).

И снова, после очередного 5 минутного опыта мой мир не будет прежним...

Сергей Булаев AI 🤖 - об AI и не только
3986👎2
Тестирую тут разные сервисы слежения за нагрузкой на компах-разработчиках. Попались glances и bashtop. А вы пользуетесь чем то необычным? Посоветуйте варианты.

А есть такое что бы сразу за 10-ю серверами следить? Или как это делают обычно?

Сергей Булаев AI 🤖 - об AI и не только
11176
Chrome выдал сегодня необычное сообщение - у вас накопилось слишком много информации о сайтах и было бы эффективно их немного почистить. "Что бы это могло значить?" подумал я, нажал ок, и впечатлился в очередной раз 🔨🔨🔨

Знаете ли вы что такое куки? Ну типа маленькие кусочки данных, в которых сайты сохраняют информацию о вас и ваших решениях. Я был уверен что они маленькие. Оказалось не всегда так...

Я сделал скриншот, но он не сохранился, места на диске для сохранения не хватило.

1,3gb кук забрал себе X (виной конечно мои 12 аккаунтов), после него в лидерах Every, Youtube и Cloudflare. В хроме это смотреть вот здесь: chrome://settings/content/all

Подскажите где в Safari, а то я им побольше пользуюсь..

Сергей Булаев AI 🤖 - об AI и не только
Please open Telegram to view this post
VIEW IN TELEGRAM
1486
Прочитал интересный разбор того, почему большинство CLAUDE.md файлов не эфективны. Проблема не в том, что Claude их не читает — проблема в том, что мы их неправильно пишем.

Для контекста. CLAUDE.md — это файл-инструкция для Claude Code, который автоматически добавляется в начало каждой сессии. Многие воспринимают его как место, куда можно свалить все команды, стайл-гайды и архитектурные решения проекта. Результат — Claude начинает игнорировать инструкции.


Современные модели могут стабильно следовать примерно 150-200 инструкциям. Claude Code в системном промпте уже использует около 50 из них — то есть треть бюджета уходит до того, как модель увидит ваш код. При этом по мере роста числа инструкций качество их выполнения падает не точечно, а равномерно по всем пунктам.

Короче, держите CLAUDE.md коротким и универсальным. Вместо того чтобы описывать все команды сборки, настройки тестов и паттерны кода, используйте метод прогрессивного погружения: создайте папку agent_docs/ с отдельными файлами (building_project.md, testing_guidelines.md, architecture.md) и в CLAUDE.md просто перечислите их с кратким описанием. Пусть Claude сам решает, что ему нужно прочитать для текущей задачи.

Для повседневных задач это тожже работает. Я после прочтения статьи попросил агента разобрать мой CLAUDE.md и раскидать все не нужное по разным документам. И он сразу вынул из него примерно половину. Правда, выкинуть придется еще примерно 500 строк :)

Правда, авторы статьи категорически призывают не использовать /init для автогенерации CLAUDE.md и вообще писать там всё вручную. Но так далеко заходить я, конечно, не буду :)


Пономарь
229