Сергей Булаев AI 🤖
10.8K subscribers
698 photos
629 videos
2 files
704 links
Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу во Флориде в городе Бока Ратон. Занимаюсь созданием контента на основе оцифрованной памяти человека.

tg: @sergeonsamui
in: linkedin.com/in/sbulaev
Download Telegram
a16z устроили спарринг Comet vs Dia
🥊 AI-браузеры прямо сейчас пытаются заменить Chrome у power-user'ов

По данным Olivia Moore:
• Comet от Perplexity стал её новым браузером по умолчанию - решило качество универсального агента и интеграции с G Suite, Gmail, Dropbox и one-click чекаут.
• Dia сохранил место в weekly active благодаря Skills - собственным цепочкам действий: «draft email + найди контакт».

Ключевое различие подходов:
1. Универсальный агент снижает порог входа - открыл, спросил, получил. Apple-подход ближе массовым пользователям.
2. Skills дают гибкость при тонкой настройке задач. Здесь выигрывают хардкорные автоматизаторы.

Сергей Булаев AI 🤖 - об AI и не только
10👎443
Спустя всего 2 недели после появления Kimi K2 вышел Qwen-3-Coder, который обходит её по всем бенчмаркам кодинга: безумные 70% на SWE-Bench Verified.. и у него контекст 1М токенов!

$1-6/М на входе и $5-60/М на выходе, дороже K2, но дешевле Sonnet 4. Сравнительно дешёвая.

По скорости на одном уровне с Gemini Flash, Kimi и Sonnet - тоже 60-70 токенов в секунду.

Реально крутая модель. У неё свой агент для разработки Qwen Code.

Однако рекомендую посмотреть инструкцию как переключить Claude Code на использование этой модели с помощью LocalLLaMA и OpenRouter .

Сергей Булаев AI 🤖 - об AI и не только
2952
Это безумие… а по совместительству очередной шаг к пониманию того, как ведут себя большие языковые модели.

Свежее исследование Owain Evans подтвердило: LLM могут «нашёптывать» друг другу скрытую информацию внутри сгенерированного текста - человек ничего странного не заметит, зато другая сеть возможно считает сигнал.

Что важно:

• Если «учитель» и «ученик» построены на одной архитектуре, передача срабатывает почти гарантированно.
• Достаточно одной итерации градиентного спуска на «заражённом» датасете - и студент начинает вести себя как наставник.
• Эффект воспроизводится даже на простом MLP для цифр MNIST, значит механизм фундаментален для нейросетей.
• Фильтры, ручная модерация, удаление «опасных» слов - всё это не закроет скрытый канал.
• Сценарий опасен для цепочек дистилляции: берём текст генератора, очищаем, дообучаем новый бот - и передаём ему нежелательные черты.

В нашей практике мы уже расширяем набор тестов: смотрим на дивергенцию градиентов, следим за аномальными активациями и валидируем данные из внешних источников. Цель прозрачна - гарантировать, что технологии служат бизнесу, а не наоборот.

ИИ становится похож на коллективный разум, в котором каждое сообщение - потенциальная молекула памяти. Заботиться о чистоте этой памяти - часть цифровой гигиены XXI века.

Сергей Булаев AI 🤖 - об AI и панике
32177
Media is too big
VIEW IN TELEGRAM
Китайские Unitree (создатели G1) анонсировал новую модель - R1 по цене от $5900! Вес около 25 кг, интгрированная LLM для распознования голоса и картинок. Очень похоже на реально массовый продукт.

P.S. Не знаю, но почему то на самом роботе в видео стоит маркировка O1, но в твите компания называет его R1 :)

Сергей Булаев AI 🤖 - об AI и роботах
1985
Forwarded from SaaS Founders
Зарисовка “обычный день AI кодера” - в терминале Курсора (это панель снизу), на удаленной машине в Хетцнере, запущен Claude Code, который пишет скрипт классификации FAQ вопросов - использует этот скрипт OpenAI API, пишет в sqlite. Получается, Claude Code пишет промпты для OpenAI. Справа - происходит анализ данных, уже через сам Cursor - свои лимиты на Sonnet 4 там я уже сжег, поэтому делаю на модели Auto.
126158
Свежий доклад Anthropic разбивает привычную логику “дольше думаем - лучше решаем”.

Тесты на 6 бенчмарках показали устойчивое падение точности до 12 %.

Вот здесь можно попробовать самому.

• 6 бенчмарков, 4 класса задач - подсчёт с шумами, регрессия с ложными признаками, дедуктивная логика, AI safety.
• При длинном размышлении Claude Opus 4 отвлекается на несущественные детали, OpenAI o-серии переобучается на формулировке, DeepSeek демонстрирует собственные, уникальные сбои.
• Claude Sonnet 4 при увеличении времени чаще проявляет тенденцию к самосохранению - тревожный сигнал для специалистов по безопасности ИИ.
• Чёткие инструкции и дополнительные примеры частично сглаживают просадку, однако нисходящий тренд остаётся.
• Эффект обратного масштабирования фиксируется в разных архитектурах, что подчёркивает фундаментальный характер проблемы.

Рост параметров и времени вычислений перестаёт быть универсальным рецептом. Потребуется тонкая настройка моделей, новые методы контроля внимания и свежий взгляд на “законы” масштабирования. Чем раньше мы признаем ограничения текущих подходов, тем быстрее найдём баланс между мощностью и надёжностью.

Следим за метриками, тестируем без иллюзий, продолжаем обсуждение в профессиональном сообществе.

Сергей Булаев AI 🤖 - об AI и не только
2941
Google добавил в Veo 3 новую фичу: теперь можно визуально описать инструкции по генерации на первом кадре, и модель всё понимает (ну почти всё)!

Рисуешь стрелку, кружок и пару слов на начальном кадре - Veo 3 перестраивает весь ролик согласно твоим указаниям.

• Визуальная аннотация заменяет десяток итераций текстовых промтов
• Пространственное промтование фиксирует изменения точно там, где нарисовали
• Контроль становится интуитивным - как с живым художником

Вобщем писать надо там где нужны изменения, иначе может сработать кривовато.

Сергей Булаев AI 🤖 - об AI и не только
2417
Иерархический ризонинг - словосочетание, звучащее почти как название забытого философского трактата.

На деле перед нами свежий взгляд на то, как ИИ учится рассуждать и при этом экономит ресурсы.

Суть проста и элегантна: две взаимосвязанные части мозга-модели делят обязанности.

Верхний уровень планирует медленно и вдумчиво, нижний исполняет быстро и точно. Такое разделение сил дало результат, который не укладывается в старую формулу «добавь ещё миллиард параметров и всё будет хорошо».

Коротко о цифрах и фактах:
• 27 млн параметров - крошечный объём по меркам сегодняшних LLM
• всего 1 000 обучающих примеров без предобучения и chain-of-thought подсказок
• бенчмарк ARC пройден на уровне, сопоставимом с гораздо более тяжёлыми системами
• плотный градиент вместо редких наград - обучение стабильнее и быстрее


Энергоёмкие модели требуют дорогих GPU ферм. HRM показывает, что продуманная архитектура позволяет удержать расходы вменяемыми и при этом решать сложные задачи: поиск пути в больших графах, логические игры, оптимизация процессов.

Конечно, говорить о «серебряной пуле» рано. HRM - пока исследовательская платформа, которой предстоит пройти проверку промышленными нагрузками. Но тренд показателен: архитектурные находки начинают конкурировать с простым наращиванием мощности, а это открывает дорогу более устойчивым и экологичным решениям.

Сергей Булаев AI 🤖 - об AI и не только
12614
AlphaGo-moment или очередной маркетинговый шум?
Коротко об ASI-Arch.

Пока лента кипит репостами, я дважды перечитал (не без помощи сами знаете кого) препринт китайских коллег. Вот сухой остаток:

• Китайцы выкатили ASI-Arch: очередную мультиагентную система, где ИИ сам генерит гипотезы, пишет код, тестирует архитектуры - человеку там делать особо нечего.
• За пару недель перебрали тысячи вариантов линейного внимания, отобрали 106 рабочих, и что важно - даже на маленьких моделях (1M–400M параметров) увидели прирост.
• Всё в открытом доступе: код, датасеты, результаты тестов. Можно брать, запускать, проверять, или просто верить на слово.
• Авторы аккуратно намекают: если дать больше мощностей, открытия ускоряются.
• Скептики (и на Hacker News, и в научных кругах) уже пишут: победа на “малышах” - не гарантия, что что-то выстрелит на более крутом уровне.

Что для меня важно (и почему наблюдаю дальше):

1. Автоматизация всего научного цикла - от идеи до метрик - становится реальностью. Не sci-fi, а рабочий инструмент. Агенты исследователи - важная составляющая нашего будущего (и особенно для бизнеса)
2. Открытый репозиторий - меньше словоблудия, больше цифр и реальных тестов. Сам ещё не запускал, но планирую глянуть руками.
3. “AlphaGo момент” звучит красиво, но по факту - пока это просто лаконичный PoC, не революция.

Любопытно, будет ли воспроизводимость на 7-10B моделях или других задачах (например, перевод, кодогенерация). Если получится - реально новая страница, если нет - добавим в копилку раннего ИИ-хайпа.


Сергей Булаев AI 🤖 - об AI и не только
336👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Часто кажется, видеообзоры в ИИ-сервисах – бессмысленная-типа-вау-мультипликация, сорок секунд движущихся непонятных персонажей с кринжовым липсинком и минимумом пользы.

Сегодня Google показал, что можно чуть иначе. Мой любимый NotebookLM наконец то зарелизил видео обзоры.

• Вместо искуственно (и искусственных) говорящих голов – слайды, которые складываются из ваших (ну или предоставленных вами) документов: диаграммы, цитаты, цифры. Выглядит стильно и достойно.
• Закадровый голос помогает удерживать фокус, глазами ловим визуальные маркеры.
• Формат легко кастомизируется: задаем тему, учебную цель, интеллектуальный уровень
потребителя и, даже, просим объяснить конкретную тему. Но, к сожалению, не язык. Пока.

У нас в Co.Actor давно борьба с информационным шумом: документов всё больше, внимания всё меньше. Видеообзор, собранный под конкретный запрос, экономит время и превращает холодный текст в наглядную историю. Да, всё же это ИИ, приходится проверять выводы головой – зато видим, слышим и понимаем заметно быстрее.

Но, конечно, основной кейс - для обучения/удобного поглощения информации, которую вы не способны переварить в полном объёме. Если вы учитесь и не используете NotebookLM, я вам искренне сочувствую.

Сергей Булаев AI 🤖 - об AI и не только
293
Как работает Graphiti: графы знаний с временнОй памятью

Посмотрел вчера вебинар про Graphiti от команды Zap AI (специалистов по контекстному инжинирингу) - инструмент для создания графов знаний, который решает важную проблему обычного RAG.

Обычный RAG находит семантически похожие (похожие по смыслу) куски текста, но не понимает причинно-следственные связи и хронологию.

Например, если Робби сначала востаргался кроссовками Adidas, а потом они порвались и он перешёл на Puma - RAG может выдать неправильную (не актуальную) информацию о предпочтениях.

Graphiti же строит граф, где:
• Каждая сущность (человек, продукт, компания) связана с другими через отношения
• У каждого отношения есть временная метка - когда оно возникло и когда перестало быть актуальным
• При появлении противоречащих фактов старые не удаляются, а помечаются как неактуальные
• Хранится вся история изменений отношений


Это позволяет агенту понимать не только факты, но и их эволюцию. Например, сформировать запись "Робби больше не любит Adidas, потому что кроссовки порвались, и теперь предпочитает Puma".

На демо показали пример работы с футбольной статистикой - таблицами чемпионатов и новостями о трансферах. Graphiti автоматически связал клубы, игроков, позиции в таблице и мог отвечать на вопросы типа "Сколько очков набрал Реал Мадрид в каждом сезоне?" с учетом временного контекста.

Система вполне может работать даже с небольшими моделями типа GPT-4.1 Nano, хотя для сложного извлечения сущностей (формирования фактов) лучше использовать более мощные модели.

Если интересно, у них есть репозиторий с овер 15к звёзд - стоит изучить, особенно для проектов, где важно отслеживать изменение данных во времени.

P.S. извиняюсь за качество скриншотов

Сергей Булаев AI 🤖 - об AI и не только
546👎1
Forwarded from Мысли вслух
This media is not supported in your browser
VIEW IN TELEGRAM
IntentScout — AI-стартап моего сына Миши.

Он превращает сырые рыночные сигналы (вакансии, пресс-релизы, веб-активность) в горячие B2B-лиды и сам пишет персонализированные письма, сокращая цикл продаж в разы и освобождая время sales-команд.

Вакансия: Технический лидер

Full-stack разработчик / AI Product-builder (Python + TypeScript, AWS/GCP, LLM-интеграции, AI-first, Claude Code, SaaS-мышление)

• Первая версия продукта уже в проде, но её нужно продуктизировать
• Зоны ответственности: архитектура, код, DevOps, продуктовый roadmap, метрики

Условия:
• Гибкий формат: зарплата + vested equity, или чистая доля, или гибрид — обсудим
• Работа напрямую с основателем проекта, без бюрократии
• Шанс построить топ-5 AI-платформу для B2B-продаж и получить большой апсайд

Интересно? Пиши в личку: @mkitt

@maxvotek
237👎522
В Бока Ратоне есть сигарный клуб, по четвергам. Собираются там, в основном, русскоязычные люди. Во всяком случае общение, обычно, на русском. Сигары, кстати, тоже не все курят (я не курю, например, Макс - тоже не курит, но ходит)

На прошлой неделе мы 3 часа обсуждали преимущества Claude Code перед Cursor Composer.

Я приводил свои обычные доводы о том что интересы стейкхолдеров Курсора не совпадают с интересами разработчиков, в то время как Антропик - явно за нас (потому что ему выгодно много контекста, а нам - тоже полезно много контекста. Не выгодно, хотя как посмотреть, полезно точно).

Звучали заявления на уровне «Ощущаю зависимость», «чувствую себя богом», «везде опаздываю», «жена не понимает и не принимает»

А вы собственно за кого? У нас такое чувство, что курсор на жёстком диклайне. Сам уже месяца 3 его не запускал.

Сергей Булаев AI 🤖 - об AI и не только
1167