a16z устроили спарринг Comet vs Dia
🥊 AI-браузеры прямо сейчас пытаются заменить Chrome у power-user'ов
По данным Olivia Moore:
• Comet от Perplexity стал её новым браузером по умолчанию - решило качество универсального агента и интеграции с G Suite, Gmail, Dropbox и one-click чекаут.
• Dia сохранил место в weekly active благодаря Skills - собственным цепочкам действий: «draft email + найди контакт».
Ключевое различие подходов:
1. Универсальный агент снижает порог входа - открыл, спросил, получил. Apple-подход ближе массовым пользователям.
2. Skills дают гибкость при тонкой настройке задач. Здесь выигрывают хардкорные автоматизаторы.
Сергей Булаев AI 🤖 - об AI и не только
🥊 AI-браузеры прямо сейчас пытаются заменить Chrome у power-user'ов
По данным Olivia Moore:
• Comet от Perplexity стал её новым браузером по умолчанию - решило качество универсального агента и интеграции с G Suite, Gmail, Dropbox и one-click чекаут.
• Dia сохранил место в weekly active благодаря Skills - собственным цепочкам действий: «draft email + найди контакт».
Ключевое различие подходов:
1. Универсальный агент снижает порог входа - открыл, спросил, получил. Apple-подход ближе массовым пользователям.
2. Skills дают гибкость при тонкой настройке задач. Здесь выигрывают хардкорные автоматизаторы.
Сергей Булаев AI 🤖 - об AI и не только
Спустя всего 2 недели после появления Kimi K2 вышел Qwen-3-Coder, который обходит её по всем бенчмаркам кодинга: безумные 70% на SWE-Bench Verified.. и у него контекст 1М токенов!
$1-6/М на входе и $5-60/М на выходе, дороже K2, но дешевле Sonnet 4. Сравнительно дешёвая.
По скорости на одном уровне с Gemini Flash, Kimi и Sonnet - тоже 60-70 токенов в секунду.
Реально крутая модель. У неё свой агент для разработки Qwen Code.
Однако рекомендую посмотреть инструкцию как переключить Claude Code на использование этой модели с помощью LocalLLaMA и OpenRouter .
Сергей Булаев AI 🤖 - об AI и не только
$1-6/М на входе и $5-60/М на выходе, дороже K2, но дешевле Sonnet 4. Сравнительно дешёвая.
По скорости на одном уровне с Gemini Flash, Kimi и Sonnet - тоже 60-70 токенов в секунду.
Реально крутая модель. У неё свой агент для разработки Qwen Code.
Однако рекомендую посмотреть инструкцию как переключить Claude Code на использование этой модели с помощью LocalLLaMA и OpenRouter .
Сергей Булаев AI 🤖 - об AI и не только
Это безумие… а по совместительству очередной шаг к пониманию того, как ведут себя большие языковые модели.
Свежее исследование Owain Evans подтвердило: LLM могут «нашёптывать» друг другу скрытую информацию внутри сгенерированного текста - человек ничего странного не заметит, зато другая сеть возможно считает сигнал.
Что важно:
• Если «учитель» и «ученик» построены на одной архитектуре, передача срабатывает почти гарантированно.
• Достаточно одной итерации градиентного спуска на «заражённом» датасете - и студент начинает вести себя как наставник.
• Эффект воспроизводится даже на простом MLP для цифр MNIST, значит механизм фундаментален для нейросетей.
• Фильтры, ручная модерация, удаление «опасных» слов - всё это не закроет скрытый канал.
• Сценарий опасен для цепочек дистилляции: берём текст генератора, очищаем, дообучаем новый бот - и передаём ему нежелательные черты.
В нашей практике мы уже расширяем набор тестов: смотрим на дивергенцию градиентов, следим за аномальными активациями и валидируем данные из внешних источников. Цель прозрачна - гарантировать, что технологии служат бизнесу, а не наоборот.
ИИ становится похож на коллективный разум, в котором каждое сообщение - потенциальная молекула памяти. Заботиться о чистоте этой памяти - часть цифровой гигиены XXI века.
Сергей Булаев AI 🤖 - об AI и панике
Свежее исследование Owain Evans подтвердило: LLM могут «нашёптывать» друг другу скрытую информацию внутри сгенерированного текста - человек ничего странного не заметит, зато другая сеть возможно считает сигнал.
Что важно:
• Если «учитель» и «ученик» построены на одной архитектуре, передача срабатывает почти гарантированно.
• Достаточно одной итерации градиентного спуска на «заражённом» датасете - и студент начинает вести себя как наставник.
• Эффект воспроизводится даже на простом MLP для цифр MNIST, значит механизм фундаментален для нейросетей.
• Фильтры, ручная модерация, удаление «опасных» слов - всё это не закроет скрытый канал.
• Сценарий опасен для цепочек дистилляции: берём текст генератора, очищаем, дообучаем новый бот - и передаём ему нежелательные черты.
В нашей практике мы уже расширяем набор тестов: смотрим на дивергенцию градиентов, следим за аномальными активациями и валидируем данные из внешних источников. Цель прозрачна - гарантировать, что технологии служат бизнесу, а не наоборот.
ИИ становится похож на коллективный разум, в котором каждое сообщение - потенциальная молекула памяти. Заботиться о чистоте этой памяти - часть цифровой гигиены XXI века.
Сергей Булаев AI 🤖 - об AI и панике
Media is too big
VIEW IN TELEGRAM
Китайские Unitree (создатели G1) анонсировал новую модель - R1 по цене от $5900! Вес около 25 кг, интгрированная LLM для распознования голоса и картинок. Очень похоже на реально массовый продукт.
P.S. Не знаю, но почему то на самом роботе в видео стоит маркировка O1, но в твите компания называет его R1 :)
Сергей Булаев AI 🤖 - об AI и роботах
P.S. Не знаю, но почему то на самом роботе в видео стоит маркировка O1, но в твите компания называет его R1 :)
Сергей Булаев AI 🤖 - об AI и роботах
Forwarded from SaaS Founders
Зарисовка “обычный день AI кодера” - в терминале Курсора (это панель снизу), на удаленной машине в Хетцнере, запущен Claude Code, который пишет скрипт классификации FAQ вопросов - использует этот скрипт OpenAI API, пишет в sqlite. Получается, Claude Code пишет промпты для OpenAI. Справа - происходит анализ данных, уже через сам Cursor - свои лимиты на Sonnet 4 там я уже сжег, поэтому делаю на модели Auto.
1 26 15 8
Свежий доклад Anthropic разбивает привычную логику “дольше думаем - лучше решаем”.
Тесты на 6 бенчмарках показали устойчивое падение точности до 12 %.
Вот здесь можно попробовать самому.
• 6 бенчмарков, 4 класса задач - подсчёт с шумами, регрессия с ложными признаками, дедуктивная логика, AI safety.
• При длинном размышлении Claude Opus 4 отвлекается на несущественные детали, OpenAI o-серии переобучается на формулировке, DeepSeek демонстрирует собственные, уникальные сбои.
• Claude Sonnet 4 при увеличении времени чаще проявляет тенденцию к самосохранению - тревожный сигнал для специалистов по безопасности ИИ.
• Чёткие инструкции и дополнительные примеры частично сглаживают просадку, однако нисходящий тренд остаётся.
• Эффект обратного масштабирования фиксируется в разных архитектурах, что подчёркивает фундаментальный характер проблемы.
Рост параметров и времени вычислений перестаёт быть универсальным рецептом. Потребуется тонкая настройка моделей, новые методы контроля внимания и свежий взгляд на “законы” масштабирования. Чем раньше мы признаем ограничения текущих подходов, тем быстрее найдём баланс между мощностью и надёжностью.
Следим за метриками, тестируем без иллюзий, продолжаем обсуждение в профессиональном сообществе.
Сергей Булаев AI 🤖 - об AI и не только
Тесты на 6 бенчмарках показали устойчивое падение точности до 12 %.
Вот здесь можно попробовать самому.
• 6 бенчмарков, 4 класса задач - подсчёт с шумами, регрессия с ложными признаками, дедуктивная логика, AI safety.
• При длинном размышлении Claude Opus 4 отвлекается на несущественные детали, OpenAI o-серии переобучается на формулировке, DeepSeek демонстрирует собственные, уникальные сбои.
• Claude Sonnet 4 при увеличении времени чаще проявляет тенденцию к самосохранению - тревожный сигнал для специалистов по безопасности ИИ.
• Чёткие инструкции и дополнительные примеры частично сглаживают просадку, однако нисходящий тренд остаётся.
• Эффект обратного масштабирования фиксируется в разных архитектурах, что подчёркивает фундаментальный характер проблемы.
Рост параметров и времени вычислений перестаёт быть универсальным рецептом. Потребуется тонкая настройка моделей, новые методы контроля внимания и свежий взгляд на “законы” масштабирования. Чем раньше мы признаем ограничения текущих подходов, тем быстрее найдём баланс между мощностью и надёжностью.
Следим за метриками, тестируем без иллюзий, продолжаем обсуждение в профессиональном сообществе.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Google добавил в Veo 3 новую фичу: теперь можно визуально описать инструкции по генерации на первом кадре, и модель всё понимает (ну почти всё)!
Рисуешь стрелку, кружок и пару слов на начальном кадре - Veo 3 перестраивает весь ролик согласно твоим указаниям.
• Визуальная аннотация заменяет десяток итераций текстовых промтов
• Пространственное промтование фиксирует изменения точно там, где нарисовали
• Контроль становится интуитивным - как с живым художником
Вобщем писать надо там где нужны изменения, иначе может сработать кривовато.
Сергей Булаев AI 🤖 - об AI и не только
Рисуешь стрелку, кружок и пару слов на начальном кадре - Veo 3 перестраивает весь ролик согласно твоим указаниям.
• Визуальная аннотация заменяет десяток итераций текстовых промтов
• Пространственное промтование фиксирует изменения точно там, где нарисовали
• Контроль становится интуитивным - как с живым художником
Вобщем писать надо там где нужны изменения, иначе может сработать кривовато.
Сергей Булаев AI 🤖 - об AI и не только
Иерархический ризонинг - словосочетание, звучащее почти как название забытого философского трактата.
На деле перед нами свежий взгляд на то, как ИИ учится рассуждать и при этом экономит ресурсы.
Суть проста и элегантна: две взаимосвязанные части мозга-модели делят обязанности.
Верхний уровень планирует медленно и вдумчиво, нижний исполняет быстро и точно. Такое разделение сил дало результат, который не укладывается в старую формулу «добавь ещё миллиард параметров и всё будет хорошо».
Коротко о цифрах и фактах:
Энергоёмкие модели требуют дорогих GPU ферм. HRM показывает, что продуманная архитектура позволяет удержать расходы вменяемыми и при этом решать сложные задачи: поиск пути в больших графах, логические игры, оптимизация процессов.
Конечно, говорить о «серебряной пуле» рано. HRM - пока исследовательская платформа, которой предстоит пройти проверку промышленными нагрузками. Но тренд показателен: архитектурные находки начинают конкурировать с простым наращиванием мощности, а это открывает дорогу более устойчивым и экологичным решениям.
Сергей Булаев AI 🤖 - об AI и не только
На деле перед нами свежий взгляд на то, как ИИ учится рассуждать и при этом экономит ресурсы.
Суть проста и элегантна: две взаимосвязанные части мозга-модели делят обязанности.
Верхний уровень планирует медленно и вдумчиво, нижний исполняет быстро и точно. Такое разделение сил дало результат, который не укладывается в старую формулу «добавь ещё миллиард параметров и всё будет хорошо».
Коротко о цифрах и фактах:
• 27 млн параметров - крошечный объём по меркам сегодняшних LLM
• всего 1 000 обучающих примеров без предобучения и chain-of-thought подсказок
• бенчмарк ARC пройден на уровне, сопоставимом с гораздо более тяжёлыми системами
• плотный градиент вместо редких наград - обучение стабильнее и быстрееЭнергоёмкие модели требуют дорогих GPU ферм. HRM показывает, что продуманная архитектура позволяет удержать расходы вменяемыми и при этом решать сложные задачи: поиск пути в больших графах, логические игры, оптимизация процессов.
Конечно, говорить о «серебряной пуле» рано. HRM - пока исследовательская платформа, которой предстоит пройти проверку промышленными нагрузками. Но тренд показателен: архитектурные находки начинают конкурировать с простым наращиванием мощности, а это открывает дорогу более устойчивым и экологичным решениям.
Сергей Булаев AI 🤖 - об AI и не только
1 26 14
AlphaGo-moment или очередной маркетинговый шум?
Коротко об ASI-Arch.
Пока лента кипит репостами, я дважды перечитал (не без помощи сами знаете кого) препринт китайских коллег. Вот сухой остаток:
• Китайцы выкатили ASI-Arch: очередную мультиагентную система, где ИИ сам генерит гипотезы, пишет код, тестирует архитектуры - человеку там делать особо нечего.
• За пару недель перебрали тысячи вариантов линейного внимания, отобрали 106 рабочих, и что важно - даже на маленьких моделях (1M–400M параметров) увидели прирост.
• Всё в открытом доступе: код, датасеты, результаты тестов. Можно брать, запускать, проверять, или просто верить на слово.
• Авторы аккуратно намекают: если дать больше мощностей, открытия ускоряются.
• Скептики (и на Hacker News, и в научных кругах) уже пишут: победа на “малышах” - не гарантия, что что-то выстрелит на более крутом уровне.
Что для меня важно (и почему наблюдаю дальше):
1. Автоматизация всего научного цикла - от идеи до метрик - становится реальностью. Не sci-fi, а рабочий инструмент. Агенты исследователи - важная составляющая нашего будущего (и особенно для бизнеса)
2. Открытый репозиторий - меньше словоблудия, больше цифр и реальных тестов. Сам ещё не запускал, но планирую глянуть руками.
3. “AlphaGo момент” звучит красиво, но по факту - пока это просто лаконичный PoC, не революция.
Любопытно, будет ли воспроизводимость на 7-10B моделях или других задачах (например, перевод, кодогенерация). Если получится - реально новая страница, если нет - добавим в копилку раннего ИИ-хайпа.
Сергей Булаев AI 🤖 - об AI и не только
Коротко об ASI-Arch.
Пока лента кипит репостами, я дважды перечитал (не без помощи сами знаете кого) препринт китайских коллег. Вот сухой остаток:
• Китайцы выкатили ASI-Arch: очередную мультиагентную система, где ИИ сам генерит гипотезы, пишет код, тестирует архитектуры - человеку там делать особо нечего.
• За пару недель перебрали тысячи вариантов линейного внимания, отобрали 106 рабочих, и что важно - даже на маленьких моделях (1M–400M параметров) увидели прирост.
• Всё в открытом доступе: код, датасеты, результаты тестов. Можно брать, запускать, проверять, или просто верить на слово.
• Авторы аккуратно намекают: если дать больше мощностей, открытия ускоряются.
• Скептики (и на Hacker News, и в научных кругах) уже пишут: победа на “малышах” - не гарантия, что что-то выстрелит на более крутом уровне.
Что для меня важно (и почему наблюдаю дальше):
1. Автоматизация всего научного цикла - от идеи до метрик - становится реальностью. Не sci-fi, а рабочий инструмент. Агенты исследователи - важная составляющая нашего будущего (и особенно для бизнеса)
2. Открытый репозиторий - меньше словоблудия, больше цифр и реальных тестов. Сам ещё не запускал, но планирую глянуть руками.
3. “AlphaGo момент” звучит красиво, но по факту - пока это просто лаконичный PoC, не революция.
Любопытно, будет ли воспроизводимость на 7-10B моделях или других задачах (например, перевод, кодогенерация). Если получится - реально новая страница, если нет - добавим в копилку раннего ИИ-хайпа.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Часто кажется, видеообзоры в ИИ-сервисах – бессмысленная-типа-вау-мультипликация, сорок секунд движущихся непонятных персонажей с кринжовым липсинком и минимумом пользы.
Сегодня Google показал, что можно чуть иначе. Мой любимый NotebookLM наконец то зарелизил видео обзоры.
У нас в Co.Actor давно борьба с информационным шумом: документов всё больше, внимания всё меньше. Видеообзор, собранный под конкретный запрос, экономит время и превращает холодный текст в наглядную историю. Да, всё же это ИИ, приходится проверять выводы головой – зато видим, слышим и понимаем заметно быстрее.
Но, конечно, основной кейс - для обучения/удобного поглощения информации, которую вы не способны переварить в полном объёме. Если вы учитесь и не используете NotebookLM, я вам искренне сочувствую.
Сергей Булаев AI 🤖 - об AI и не только
Сегодня Google показал, что можно чуть иначе. Мой любимый NotebookLM наконец то зарелизил видео обзоры.
• Вместо искуственно (и искусственных) говорящих голов – слайды, которые складываются из ваших (ну или предоставленных вами) документов: диаграммы, цитаты, цифры. Выглядит стильно и достойно.
• Закадровый голос помогает удерживать фокус, глазами ловим визуальные маркеры.
• Формат легко кастомизируется: задаем тему, учебную цель, интеллектуальный уровень потребителя и, даже, просим объяснить конкретную тему. Но, к сожалению, не язык. Пока.У нас в Co.Actor давно борьба с информационным шумом: документов всё больше, внимания всё меньше. Видеообзор, собранный под конкретный запрос, экономит время и превращает холодный текст в наглядную историю. Да, всё же это ИИ, приходится проверять выводы головой – зато видим, слышим и понимаем заметно быстрее.
Но, конечно, основной кейс - для обучения/удобного поглощения информации, которую вы не способны переварить в полном объёме. Если вы учитесь и не используете NotebookLM, я вам искренне сочувствую.
Сергей Булаев AI 🤖 - об AI и не только
Как работает Graphiti: графы знаний с временнОй памятью
Посмотрел вчера вебинар про Graphiti от команды Zap AI (специалистов по контекстному инжинирингу) - инструмент для создания графов знаний, который решает важную проблему обычного RAG.
Обычный RAG находит семантически похожие (похожие по смыслу) куски текста, но не понимает причинно-следственные связи и хронологию.
Например, если Робби сначала востаргался кроссовками Adidas, а потом они порвались и он перешёл на Puma - RAG может выдать неправильную (не актуальную) информацию о предпочтениях.
Graphiti же строит граф, где:
Это позволяет агенту понимать не только факты, но и их эволюцию. Например, сформировать запись "Робби больше не любит Adidas, потому что кроссовки порвались, и теперь предпочитает Puma".
На демо показали пример работы с футбольной статистикой - таблицами чемпионатов и новостями о трансферах. Graphiti автоматически связал клубы, игроков, позиции в таблице и мог отвечать на вопросы типа "Сколько очков набрал Реал Мадрид в каждом сезоне?" с учетом временного контекста.
Система вполне может работать даже с небольшими моделями типа GPT-4.1 Nano, хотя для сложного извлечения сущностей (формирования фактов) лучше использовать более мощные модели.
Если интересно, у них есть репозиторий с овер 15к звёзд - стоит изучить, особенно для проектов, где важно отслеживать изменение данных во времени.
P.S. извиняюсь за качество скриншотов
Сергей Булаев AI 🤖 - об AI и не только
Посмотрел вчера вебинар про Graphiti от команды Zap AI (специалистов по контекстному инжинирингу) - инструмент для создания графов знаний, который решает важную проблему обычного RAG.
Обычный RAG находит семантически похожие (похожие по смыслу) куски текста, но не понимает причинно-следственные связи и хронологию.
Например, если Робби сначала востаргался кроссовками Adidas, а потом они порвались и он перешёл на Puma - RAG может выдать неправильную (не актуальную) информацию о предпочтениях.
Graphiti же строит граф, где:
• Каждая сущность (человек, продукт, компания) связана с другими через отношения
• У каждого отношения есть временная метка - когда оно возникло и когда перестало быть актуальным
• При появлении противоречащих фактов старые не удаляются, а помечаются как неактуальные
• Хранится вся история изменений отношенийЭто позволяет агенту понимать не только факты, но и их эволюцию. Например, сформировать запись "Робби больше не любит Adidas, потому что кроссовки порвались, и теперь предпочитает Puma".
На демо показали пример работы с футбольной статистикой - таблицами чемпионатов и новостями о трансферах. Graphiti автоматически связал клубы, игроков, позиции в таблице и мог отвечать на вопросы типа "Сколько очков набрал Реал Мадрид в каждом сезоне?" с учетом временного контекста.
Система вполне может работать даже с небольшими моделями типа GPT-4.1 Nano, хотя для сложного извлечения сущностей (формирования фактов) лучше использовать более мощные модели.
Если интересно, у них есть репозиторий с овер 15к звёзд - стоит изучить, особенно для проектов, где важно отслеживать изменение данных во времени.
P.S. извиняюсь за качество скриншотов
Сергей Булаев AI 🤖 - об AI и не только
5 46👎1
Forwarded from Мысли вслух
This media is not supported in your browser
VIEW IN TELEGRAM
IntentScout — AI-стартап моего сына Миши.
Он превращает сырые рыночные сигналы (вакансии, пресс-релизы, веб-активность) в горячие B2B-лиды и сам пишет персонализированные письма, сокращая цикл продаж в разы и освобождая время sales-команд.
Вакансия: Технический лидер
Full-stack разработчик / AI Product-builder (Python + TypeScript, AWS/GCP, LLM-интеграции, AI-first, Claude Code, SaaS-мышление)
• Первая версия продукта уже в проде, но её нужно продуктизировать
• Зоны ответственности: архитектура, код, DevOps, продуктовый roadmap, метрики
Условия:
• Гибкий формат: зарплата + vested equity, или чистая доля, или гибрид — обсудим
• Работа напрямую с основателем проекта, без бюрократии
• Шанс построить топ-5 AI-платформу для B2B-продаж и получить большой апсайд
Интересно? Пиши в личку: @mkitt
@maxvotek
Он превращает сырые рыночные сигналы (вакансии, пресс-релизы, веб-активность) в горячие B2B-лиды и сам пишет персонализированные письма, сокращая цикл продаж в разы и освобождая время sales-команд.
Вакансия: Технический лидер
Full-stack разработчик / AI Product-builder (Python + TypeScript, AWS/GCP, LLM-интеграции, AI-first, Claude Code, SaaS-мышление)
• Первая версия продукта уже в проде, но её нужно продуктизировать
• Зоны ответственности: архитектура, код, DevOps, продуктовый roadmap, метрики
Условия:
• Гибкий формат: зарплата + vested equity, или чистая доля, или гибрид — обсудим
• Работа напрямую с основателем проекта, без бюрократии
• Шанс построить топ-5 AI-платформу для B2B-продаж и получить большой апсайд
Интересно? Пиши в личку: @mkitt
@maxvotek
В Бока Ратоне есть сигарный клуб, по четвергам. Собираются там, в основном, русскоязычные люди. Во всяком случае общение, обычно, на русском. Сигары, кстати, тоже не все курят (я не курю, например, Макс - тоже не курит, но ходит)
На прошлой неделе мы 3 часа обсуждали преимущества Claude Code перед Cursor Composer.
Я приводил свои обычные доводы о том что интересы стейкхолдеров Курсора не совпадают с интересами разработчиков, в то время как Антропик - явно за нас (потому что ему выгодно много контекста, а нам - тоже полезно много контекста. Не выгодно, хотя как посмотреть, полезно точно).
Звучали заявления на уровне «Ощущаю зависимость», «чувствую себя богом», «везде опаздываю», «жена не понимает и не принимает»
А вы собственно за кого? У нас такое чувство, что курсор на жёстком диклайне. Сам уже месяца 3 его не запускал.
Сергей Булаев AI 🤖 - об AI и не только
На прошлой неделе мы 3 часа обсуждали преимущества Claude Code перед Cursor Composer.
Я приводил свои обычные доводы о том что интересы стейкхолдеров Курсора не совпадают с интересами разработчиков, в то время как Антропик - явно за нас (потому что ему выгодно много контекста, а нам - тоже полезно много контекста. Не выгодно, хотя как посмотреть, полезно точно).
Звучали заявления на уровне «Ощущаю зависимость», «чувствую себя богом», «везде опаздываю», «жена не понимает и не принимает»
А вы собственно за кого? У нас такое чувство, что курсор на жёстком диклайне. Сам уже месяца 3 его не запускал.
Сергей Булаев AI 🤖 - об AI и не только
1 16 7