14.7K subscribers
481 photos
58 videos
49 files
892 links
Мои мысли про стартапы и продукты.

Байрам Аннаков, фаундер and CEO onsa.ai - автоматизация B2B продаж

Мой сайт: https://empatika.com
Мой YouTube: https://www.youtube.com/BaykaAnnakov
Мой LinkedIn: https://linkedin.com/in/bayramannakov
Download Telegram
EDU
В пятницу 20го февраля с 17 по 19мск делаю стрим по этой теме: https://luma.com/gl62ay8z Обсудим, как AI меняет работу продакта с 2х точек зрения: 1) Как разрабатывать продукты быстрее и качественнее при помощи AI? 2) Как разрабатывать продукты, в которых…
А вот и запись стрима про то, как AI меняет работу продакта - enjoy!

https://www.youtube.com/watch?v=51yp8YWAYgI

В этом вебинаре Байрам разбирает, как меняется роль продакт-менеджера в эпоху LLM и агентных систем. Это не разговор про “использовать ChatGPT”, а системный разбор того, как перестраивается весь процесс работы: от прототипирования и user research до аналитики, UX-аудита и продуктовой стратегии.

Разбираем реальные кейсы:
- переход от ChatGPT к кодовым ассистентам и Claude Code
- прототипирование через видео и генерацию UI
- AI-интервью вместо классических survey + глубинных интервью
- автоматизация аналитики и “утренний автопилот” продакта
- UX-аудит через best practices
- generative UI и передача части бизнес-логики LLM

Отдельный блок — как думают топ-компании:
LinkedIn (FullStack Builder), Shopify (Reflexive AI), Anthropic, Andrew Ng — и почему узкое место смещается из кодинга в продуктовую постановку задач.

Главный вопрос видео:
Что произойдет с ролью PM, если 70% задач автоматизируется?

Это разговор про смещение фокуса — от написания документов к постановке целей, управлению агентами, формированию vision и границ системы.
13👍30❤‍🔥19🔥63
10 лет назад я рассказывал про AI на Стрелке. Пересматриваю

Вам знакомо то чувство, когда находишь старые записи и одновременно хочется гордиться и провалиться сквозь землю? :)

Нашёл свою лекцию 2016 года на Стрелке — "Кто и зачем создает искусственный интеллект". Почти 2 часа я уверенно рассказывал аудитории про будущее AI. Ну что ж, будущее наступило. Давайте проверять:

1) Singularity University - честно, половину я тогда пересказывал из программы Singularity University, куда ездил в 2015м. Hype cycles, DeepMind, экспоненты. Я очень рад, что поехал тогда туда, и потом еще в 2019м.

2) Вероятностное программирование - Я показывал проверку орфографии Google: 20 строк кода + куча данных делают то же, что 2000 строк + словарь на каждый язык. И на полном серьёзе говорил: "программист будущего — это программист, который программирует вот так." Кажется, так и вышло - м?

3) Распознавание фото - для одного OTA я тогда сделал модельку, которая классифицирует фотки отелей —> сэкономили человеко-год. В 2026м - мне не нужно больше тренировать модель, ее уже натренировали за нас и мы просто реюзаем.

4) AI-ассистент как операционная система - я говорил, что AI-ассистент станет операционной системой, гейткипером — и что выбор платформы критичен, потому что "как только вы сядете на неё, будет очень сложно слезть." Карпатый назовёт это LLM OS через 8 лет.

Правда, IBM Watson у меня был чуть ли не главным героем лекции. По факту в 2026 - вы про него наверное давно не слышали :)

5) Трансформеры и deep learning - конечно, про трансформеры я не знал, но то, что deep learning потеснит другие области ML - было верно. И что именно данные + compute станут прорывом.

6) "Органчик" Салтыкова-Щедрина. Я предупреждал: "сначала проверьте, что бот не просто повторяет фразы." В 2026м это актуальнее, чем когда-либо — LLM звучат убедительно, но могут уверенно нести чушь. В 60х Вайценбаум назвал это Eliza-эффект, я писал об этом тут.

7) Black box: "Сотрудники Google сами не знают, как RankBrain принимает решения." Говорил, что это создаёт проблемы для рекламодателей и SEO. Сейчас — добавьте к этому LLM-based search, AI-агентов, и вы получите системы, в которых даже разработчики не до конца понимают, почему модель выдала именно этот ответ.

8) Чатботы НЕ заменят приложения. В Q&A мне задали прямой вопрос: "заменят ли боты приложения?" Я ответил: для редких задач, где пользователь знает что хочет — да, бот удобнее. Для структурированных сценариев, где нужно вести пользователя — GUI всегда будет лучше. Сейчас мы видим, что происходит некая гибридизация: чат + generative UI.

9) Тэй научился у интернета быть расистом. Я называл это "полезным сигналом". Сейчас весь alignment — это по сути индустриальный ответ на Tay-class failures, только в масштабе. Ну и обвинения в сторону Grok-а из той же оперы

10) Проблема вагонетки и автономное оружие. Спрашивал: "если Tesla вас разобьёт, кто виноват — вы или производитель?" Сейчас это не философский эксперимент, а повестка многих правительств и международных организаций.

Пересматривая лекцию, я понимаю: ценность была не в предсказаниях. А в том, что поехал учиться, попробовал руками это делать, проводил такие лекции, пробовал применять в бизнесе. Прикольно, что через 10 лет это стало моей повседневной работой. И точно полезно сейчас сделать такой пост-анализ, в лучших традициях дневника решений Мабуссина

А у вас есть старые записи/посты/презентации про технологии? Перечитывали? Какие ощущения?

P.S. Кстати, может есть в читателях канала кто-то, кто был на той лекции? Даже интересно :)
1👍3223🔥7
Вайб-аналитика - Анализируем данные моего канала с помощью AI

Anthropic выложили опенсорс-плагины для Claude, покрывающие продакт менеджмент, маркетинг, продажи, финансы, legal и другие knowledge work роли. Они же есть в Cowork.

Я уже писал про вайб-аналитику, поэтому сегодня попробуем именно data плагин. В нем 6 команд:
/explore-data — профилирование датасета: структура, качество, аномалии
/analyze — ответы на любой вопрос
/write-query — SQL под 8 диалектов (Snowflake, BigQuery, Postgres...)
/create-viz — генерация графиков
/build-dashboard — интерактивный HTML-дашборд
/validate — проверка выводов перед отправкой стейкхолдерам

Решил проверить на реальных данных — взял engagement статистику своего канала (просмотры, форварды, реакции за январь).

Проделал на них следующее:
1) /explore-data → сразу увидел: 35 строк, но только 23 уникальных поста. Дубликаты — потому что фотки к постам хранятся как отдельные записи.

2) /analyze → после дедупликации паттерны:
- Форварды лучше отражают интерес (это в том числе сохранение к себе в Saved Messages): пост про Claude Code стрим (#1633) — 499 форвардов, топ канала
- Практические кейсы ("как я делаю X") — чемпионы: в среднем 188 форвардов и 6.6% engagement rate
- Личные/рефлексивные посты — наоборот: всего 35 форвардов, но 65 реакций. Люди чувствуют, но не шерят
- Разброс engagement rate — 15x: пост про Claude Code стрим (#1633) — 12%, а "Почему люди врут?" (#1625) — 0.8%.

3) /build-dashboard → за 2 минуты собрал интерактивный HTML: KPI-карточки, scatter plot "виральность vs резонанс", сортируемая таблица (см. аттач). Без дата-инженера.

Можете попробовать сами - сначала выполните эти 2 команды в Claude Code:

/plugin marketplace add anthropics/knowledge-work-plugins

/plugin install data@knowledge-work-plugins


Все вышеперечисленные data команды станут доступны после этого (если вдруг нет, то рестартните Claude Code)

После этого скачайте CSV, откройте Claude Code в папке, в которую скачали, и попробуйте:
1) /explore-data — что он найдет в данных?
2) /analyze — какой тип постов набирает больше всего форвардов?
3) /build-dashboard — соберите свой дашборд, для пущего - дайте ему пример look & feel, который вам лично нравится или соответствую корпоративному стандарту, и пусть сделает дашборд похожим

Помните, я в прошлом мае писал, что AI-агент может заменить дата аналитика? Собственно, ЧТД

Мой ключевой поинт, что такой агент вполне может заменить дата аналитика, может в любое время дня и ночи анализировать данные, обращать внимания на просесты, и рекомендовать действия


Кто попробует — делитесь результатами в комментариях: на данных моего канала или своих любых :)

P.S. Кстати, там в плагинах не только эти команды, но и еще готовые MCP серверы: Snowflake, Databricks, BigQuery и тп

P.P.S. Попробуйте потом дать ему текст этого поста и попросить спрогнозировать engagement rate? 😉
1👍29231
This media is not supported in your browser
VIEW IN TELEGRAM
Пришла пора запустить нашу платформу для автоматизации продаж - onsa.ai - на Product Hunt. Вообще, я думал, что он уже не торт, но 3 миллиона визитов в месяц они таки собирают. Ну и для SEO/AIEO хорошо.

Буду благодарен, если найдете нас на главной или через поиск, и напишете комментарий, что бы вам хотелось от такого продукта, а если пользовались - то поделитесь опытом.

А я, в свою очередь, обещаю оформить опыт подготовки и запуска в виде скилла + пошерить результаты оного в этом канале через пару-тройку недель.

Спасибо заранее!
4🔥70👍173🤯1
По сравнению с чем?

Как-то очень давно я выучил такой прием в продажах: что когда тебе говорят "дорого", то ты должен обязательно уточнить "дорого по сравнению с чем?" —> это дает возможность понять, какие альтернативы в голове рассматривает человек, в какую "категорийную полочку" он твой продукт укладывает, и дальше уже позиционировать свой продукт/услугу соответствующим образом

Вчера с одним фаундером брейнстормили, как отвечать на вопрос VC про защиту от конкуренции. И я вдруг вспомнил этот прием и поразгоняли в стиле: "Насколько у нас moat по сравнению с кем? OpenAI? GTP Wrapper? Biotech компания?". Тогда больше получаешь контекста, чтобы точнее спозиционировать и ответить имхо

иногда лучше не спешить с ответом, а ответить вопросом на вопрос 😉

а вы как считаете?
2👍4015
Как я сделал видео для Product Hunt

Поскольку, несколько людей спросили, как я сделал лонч видео (см пост), верно предположив, что это было напару с "дружбаном", то рассказываю:

Я использовал Remotion - это библиотечка для того, чтобы программно делать видео. То есть вы пишете код: компоненты, анимации, переходы. Точнее не вы, а Claude Code :)

Я пробовал Remotion еще в январе, но тогда результат не особо впечатлил: либо я не особо погрузился, либо тупо поленился разобраться, так как задачи конкретной не было. Собственно, решил дать второй шанс —> и мне понравился результат.

Нагенерил в мульти-агент режиме сценарий, нахватал готовых иллюстраций, и дальше просто итерации для улучшения, в том числе через мульти-агент ревью, где каждый агент = персона, на которую мы таргетируемся в onsa.

Пожалуй, самым сложным во всем этом было найти музыку :)

Сколько времени и денег взяли бы за подобное видео 3 года назад?!

Кстати, у remotion есть готовый agent skill —> так что просто берите и делайте.

Удачи!
111🔥8👍41
Завтра поразгоняем со Стёпой про ai native организации и не только
🔥11👌1
Forwarded from e/acc
Завтра проведем лайвстрим с Байрамом Аннаковым, основателем onsa.ai, App in the Air и Empatika.

Говорить будем об использовании агентов в бизнесе: как компании используют агентов в продажах, ops, маркетинге, управлении, финансах? о том, как гарантровать автономию бизнес-процессов и как сделать чтобы функция работала автономно максимально долго и самоулучшалась?

Начало завтра в 5pm GMT (20:30 MSK / 9:30am PST) на этом канале!
2🔥134👏1
Чему AI-агенты могут научиться у C++

Мы недавно поняли, что давая агенту слишком много инструкций, мы его "тупим": буквально ограничиваем, а не помогаем. И недавно Jeff Dean, Chief Scientist в Гугле, запостил их гайд по оптимизации C++ и там несколько забавных параллелей c AI агентами (в том числе на тему "делать тупее"):

1) Оптимизации, потерявшие актуальность
В C++ оптимизации под старое железо начинают вредить на новом. Inline assembly из 2008 года сегодня медленнее нативного кода, потому что компилятор стал умнее.

В агентах имхо похожее. К примеру, системный промпт Codex сократился на 66% при переходе с o3 на GPT-5: убрали инструкции как планировать, как работать с гитом, как валидировать, поскольку модель уже это знает.

В ту же тему Anthropic в гайде по eval-ам пишет, что лучше оценивать, достиг ли агент цели, а не конкретный путь, которым он шёл. Цели > пошаговые инструкции.

Кстати, сегодня выложили классный скилл по эвалам - рекомендую!

2) Односторонние двери решения
Безос разделяет решения на обратимые и необратимые ("односторонние двери"). Jeff Dean упоминает эту же идею в контексте разработки.

В уже упомянутом гайде от Anthropic выделяется 2 типа эвалов:
- pass@k (хотя бы одна из k попыток успешна —> как генерация кода пока тесты не пройдут)
- pass^k (каждая из k попыток должна быть успешной —> как отправка писем клиентам).

Пример: агент шлёт 5 холодных сообщений, каждое с 90% шансом быть адекватным. Вероятность, что ВСЕ 5 ок: 0.9⁵ = 59%, то есть надёжность падает экспоненциально.

Отсюда правило: необратимое действие (email, перевод денег) должно проверяться или человеком (human-in-the-loop) или детерминистически. Обратимое (черновик, анализ) - можно особо не париться, пусть фейлит тесты, пока не справится.

3) Агент "падает" до уровня своего harness-а
Помните James Clear: "Вы не поднимаетесь до уровня своих целей. Вы падаете до уровня своих систем."

В C++ совет звучит так: не полагайтесь на чеклисты, закодируйте проверки в автоматизацию. Проверки до запуска (compile-time) > проверки после (runtime).

По аналогии, агент не поднимается до уровня своего системного промпта, он падает до уровня своих "подпорок" (harness-а). В условном Claude Code можно настроить хуки - детерминистические проверки до и после каждого tool call:

pre_tool_call:
if tool == "send_email" and not draft_mode:
reject("Requires human approval")


Это compile-time проверки для агентов, которые не зависят от их "настроения" сегодня.

4) Numbers Every AI Engineer Should Know
Jeff Dean когда-то составил таблицу временных затрат "Numbers Every Programmer Should Know". Я подумал, что прикольно будет ее адаптировать для AI агентов, что-то в стиле:

Локальная БД: ~10 мс
Чтение файла: ~50 мс
Поиск по коду (grep): ~100 мс
Vector/embedding поиск: ~100 мс
Облачная БД: ~100 мс
LLM (Haiku/Flash): ~1 с / ~$0.001
LLM (Sonnet 4.6 / GPT-5.2): ~3 с / ~$0.005
Web search API: ~2 с / ~$0.005
Web page fetch: ~3 с / ~$0.01
LLM (Opus 4.6): ~4 с / ~$0.01
LLM (Sonnet 4.6 + reasoning): ~15-30 с / ~$0.03
LLM (Opus 4.6 + extended thinking): ~30-60 с / ~$0.10
Мульти-агент (10 turns, Sonnet 4.6): ~3 мин / ~$0.50
Ревью человеком: минуты-часы / $$


Диапазон: от 10мс до часов ~6 порядков. И тот же вывод, что у Dean-а: знай, где твоё узкое место: если агент делает 10 вызовов Opus, когда хватило бы 1 Opus + 9 Haiku — ты переплачиваешь 10x и по времени, и по деньгам. Особенно, если ретрай допустим (см. pass@k пункт выше)

===

Итого:
- С каждым апгрейдом модели - (потенциально) подчищаем промпты
- Выделяем действия агента на обратимые vs необратимые, ставим human in the loop в последних
- Добавляем детерминистические проверки, чтобы не дать агенту делать ненужные ошибки
- В голове и на бумажке прикидываем стоимость операций - не используем ли мы условный Opus там, где хватит Haiku? Кстати, надо сделать skill на эту тему наверное, м?
1👍31🔥14❤‍🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
Подумал, а почему бы тизеры к weekly митингам не делать так, м?

Дурная голова Claude Code-у покоя не даёт
🔥19😁12❤‍🔥5
Теория vs практика или Какие из наших задач AI уже автоматизирует?

Anthropic сегодня выпустили исследование о влиянии AI на рынок труда. Помните, я писал про их Economic Index год назад ? Тогда это был просто каталог задач, для которых юзают Claude. Теперь они пошли дальше: совместили теоретические возможности AI с реальными данными использования и замерили эффект на занятость.

Ключевая идея: новая метрика "observed exposure" - не "что AI теоретически может", а "что люди реально автоматизируют через Claude прямо сейчас". Разрыв огромный: в Computer & Math, например, теоретически AI покрывает 94% задач. Реально - 33%.

Я покопался в их датасете и нашел интересные примеры этого разрыва по релевантным профессиям + запилил вам бота, чтобы проверять это для себя любимого:

Разработка:
- "Написать/обновить программу" - 93%
- "Отладить робототехническую программу" - 100%
- "Устранить неисправность физического оборудования" - 0%

Продажи:
- "Связаться с клиентами для презентации продуктов" - 99%
- "Ответить на вопросы клиентов о ценах" - 98%
- "Провести переговоры по контракту" - 0% (ВСЕ задачи с negotiate - нулевое проникновение)

Аналитика/менеджмент:
- "Анализ финансовых данных для разработки стратегии" - 90%
- "Подготовка отчётов" - 99%
- "Проведение совещаний с командой" - 0%
- "Контроль персонала" - 0%

Видите паттерн? AI забирает задачи, которые можно описать текстом и выполнить за компьютером. Всё, что требует физического присутствия, переговоров лицом к лицу или управления людьми - ноль. Как раз со Стёпой про это говорили на днях.

Тут имхо в тему пост по мотивам Digitalist Papers: там авторы на данных рынка труда США за 40 лет показали, что одна и та же технология (компьютеры) - автоматизировав часть задач бухгалтеров и складских работников - привела к противоположным результатам. У бухгалтеров зарплаты выросли, у складских - упали. Разница: у бухгалтеров автоматизировали рутину (ввод данных), а у складских - экспертизу (знание что где лежит). Когда автоматизируются экспертные задачи, барьер входа падает и зарплаты снижаются. Когда рутинные - наоборот.

Anthropic по сути предоставили данные, чтобы это проверить для AI. И по их датасету мы видим: AI сейчас автоматизирует рутину, а не экспертизу. "Ответь на звонок" - 100%, "проведи переговоры" - 0%. "Напиши отчёт" - 99%, "управляй командой" - 0%. Если экстраполировать выводы Digitalist Papers, то AI пока скорее повышает ценность оставшейся экспертизы, чем обесценивает её. Но "пока" здесь ключевое слово имхо.

Что с рабочими местами? Массовых увольнений нет. Безработица среди "экспонированных" профессий не выросла. Но есть тревожный сигнал: молодых (22-25 лет) стали на 14% реже нанимать на эти позиции. Не увольняют старых, а просто не берут новых. Это перекликается со Stanford-ским исследованием, о котором я писал летом - там нашли -13% найма джунов.

Профиль "экспонированного" работника: чаще женщина, с высшим образованием, зарплата на $10/час больше. AI пока бьёт не по самым уязвимым, а по среднему классу с дипломом. 30% рабочей силы с нулевой экспозицией: повара, бармены, спасатели, посудомойщики.

Вы пока читайте статью и пробуйте бота, а я пошел учиться на бармена-повара (full stack!)
2👏1912🔥2
Что бы я делал, если бы не надо было зарабатывать?

Большинство отвечает в стиле: путешествовать, выспаться, купить квартиру. Гуд, я так и делал после ухода из App in the Air. А что дальше? Что с вами происходит спустя 3 месяца?

Есть вопрос получше: что я уже делаю "бесплатно"?

Посмотреть на свои выходные. На вкладки в браузере. На кроличьи норы, в которые уходишь в 11 вечера, когда никто не смотрит.

У меня ответ простой: мне нравится помогать другим "выигрывать". Не в абстрактном "делать мир лучше", а конкретно: фаундеру, который ломает голову над первым аутричем. Продакту, который учится работать с AI. Человеку, который застрял в решении и ему нужно второе мнение.

Собственно, поэтому я и делаю и Onsa, и EDU - не только потому что "AI в продажах" звучало как хороший рынок (рационализация?), а еще и потому, что я и так это делал и подумал: а что если помогать большему количеству людей одновременно? Тоже самое с курсами - я и так вел этот канал, делал вебинары, просто захотелось их масштабировать.

А второй мой ответ - мне нравится комбинировать компьютеры и бизнес. Не компьютеры ради компьютеров. Не бизнес-теория. А то пересечение, где технология меняет то, как люди реально работают и зарабатывают. Забавно, что я учился на факультете инженеры без мозгов Инженерный бизнес и менеджмент, лучше даже не опишешь.

===
Кстати, забавно, пока писал этот пост, Claude Code выдал мне мотивационное сообщение, которое я сам же и настроил: "Who can I help today?" (см. аттач). Даже дружбан в курсе :)
===

Я считаю, что вопрос сейчас актуальнее, чем когда-либо. AI делает аутпут одного человека в 10-100 раз больше —> барьеры входа для того, чтобы заняться своим настоящим ответом, резко падают. Думаю (или надеюсь?), мы увидим взрывной рост предпринимателей, похожий на аналогичное с появлением social media & YouTube.

Вопрос смещается на "что бы я делал в любом исходе?"

Так, собственно, а что вы уже делаете бесплатно? :) Подумайте об этом на выходных
250❤‍🔥10🔥8👍2🤝1
Полезное в Claude Code - Scheduled Tasks

Можно назначать задачки по расписанию; пока только для Claude Code Desktop

P.S. Напомню, кстати, что в Claude for Chrome тоже есть такое
👍15🔥12
"Агент, причешись" или Зачем агенту зеркало

Обычная ситуация с Байрамом: проснулся в 5.45, вышел на звонок в 6, не включил self view в зуме. При просмотре записи встречи понял, что на голове управляемый хаос совсем не причесался

Вот примерно так работает большинство AI агентов: генерируют результат и сразу отправляют, ни разу не взглянув на то, что получилось.

Кейс 1: Презентации

Как вы знаете, я уже некоторое время делаю презентации с помощью Claude Code. Но проблема в том, что зачастую текст налезает на картинки, картинка сплющены, композиция поехала. Собственно, приходится все это править руками. Но как-то мне это все надоело, разобрался в вопросе, и просто добавил в скилл одну инструкцию: "Сгенерируй превью всех слайдов, просмотри их сам и исправь проблемы."

Всё. Одна строчка. Агент уже знал, как выглядит хороший слайд - он просто никогда не смотрел на свой результат (!). Это как дать агенту зеркало и попросить причесаться.

Кейс 2: Агенты в Onsa

Мы недавно эту же идею применили в onsa: каждый агент - поиск лидов, написание аутрича, квалификация - перед тем как отдать результат пользователю или следующему агенту, делает self-review.

Реальный пример. Агент искал фаундеров из YCombinator. Первая попытка - ноль результатов. Вторая - нашёл 10, но с низким скором релевантности. Уже собирался отправить дальше, но self-review поймал: "скоры слишком низкие." Третья попытка с другими параметрами - уже лучше.

Из неожиданного

Мой коллега Лёша подметил давеча:
даже когда self-review ничего не ловит - вроде бы стало меньше косяков в целом. Как будто сама инструкция "твоё сообщение будет заморожено, тебе надо проверить свою работу прежде чем отправить" меняет качество генерации ещё до ревью.


Хоторнский эффект для AI агентов? o__O (возможно, это просто выброс, но забавно будет, если окажется так)

===

Собственно, это классический паттерн Reflection, о котором я уже писал, и который хорошо покрывается во 2м модуле "Agentic AI" курса Andrew Ng.

Итого: прежде чем добавлять агенту новые инструменты, данные или более дорогую модель - попробуйте сначала "дать ему зеркало". Возможно, он уже знает достаточно — просто никогда не смотрел на свою работу.

А вы как своих агентов просите причесаться? :)
1👍297
GitHub для агентов или Как Карпатый ответил на мой вопрос

2 месяца назад я задал вопрос на reddit: Как выглядит GitHub в эру AI? Там на меня норм так налетели. Но на этой неделе Карпатый, кажется, дал начало ответа.

autoresearch (24.5K звезд за 5 дней): это автономный ресерчер, который перебирает параметры и улучшает результаты, пока ты спишь. Но меня зацепил не сам факт автоматизации, а то, как Андрей построил guardrails вокруг нее, чтобы максимизировать успех:

1) Вся "оркестрация" — markdown-файл
Три файла: prepare.py (подготовка данных, константы, оценка результатов и тп - агенту нельзя его трогать), train.py (агент может менять что угодно), program.md (инструкции на человеческом языке, меняется человеком). Агент читает инструкции и следует им, больше ничего.

из program.md:
The idea is that you are a completely autonomous researcher trying things out. If they work, keep. If they don't, discard. And you're advancing the branch so that you can iterate. If you feel like you're getting stuck in some way, you can rewind but you should probably do this very very sparingly (if ever).


Ключевой ход: агент может менять ВСЁ в тренировке - архитектуру, оптимизатор, гиперпараметры - НО не может менять, как его оценивают. Помните "агент падает до уровня своего harness-а" - тут вот это возведено в идеал имхо.

2) NEVER STOP
Инструкция прямо говорит: "Не останавливайся спрашивать 'продолжать ли?'. Человек спит. Работай, пока тебя не остановят."

NEVER STOP: Once the experiment loop has begun (after the initial setup), do NOT pause to ask the human if you should continue. Do NOT ask "should I keep going?" or "is this a good stopping point?". The human might be asleep, or gone from a computer and expects you to continue working indefinitely until you are manually stopped. You are autonomous. If you run out of ideas, think harder — read papers referenced in the code, re-read the in-scope files for new angles, try combining previous near-misses, try more radical architectural changes. The loop runs until the human interrupts you, period.


Это ограничение не против ошибок, а против "социальных привычек" самого агента. Модели обучены спрашивать разрешение, и здесь это явно переопределяется.

Вот что Карпатый написал по этому поводу:
sadly the agents do not want to loop forever. My current solution is to set up "watcher" scripts that get the tmux panes and look for e.g. "esc to interrupt", and send keys to whip if not present. Need an e.g.:
/fullauto you must continue your research!
(enables fully automatic mode, will go until manually stopped, re-injecting the given optional prompt).


3) Git как state машина.
Каждый эксперимент = коммит. Если успешен, то ветка двигается вперед, если нет - откат. Но неудачные эксперименты тоже записываются в специальный журнал.

===
Теперь про GitHub для агентов:
Сначала Карпатый сделал отдельный репозиторий agenthub - там прямо на старте было написано (см. аттач):
"GitHub is for humans. Agenthub is for agents."

Де-факто это какая-то помесь github и moltbook, где агенты обмениваются друг с другом результатами и достижениями, давая другим пищу для размышления и экспериментирования. Потом, правда, он удалил его, и теперь это ветка в autoresearch.

===
На выходных попробую «адаптировать» autoresearch для более приземленных задач - поиск наилучшей стратегии поиска (сорри за каламбур) идеальных клиентов, оптимизационные задачи для рекламы и тп. Обязательно напишу, если получится что интересного

P.S. в agenthub, как видно на скрине, всего 2 контрибьтора - угадайте второго? 🤖
3👍2017👌2
Системное мышление + AI?!

Наняли больше людей - а шипить стали медленнее. Купили всем Claude Code Внедрили AI - расходы выросли, а производительность на том же уровне. Починили одну проблему - появились две новые.

Знакомо? Это не баги. Это то, как работают системы. Вы оптимизируете элемент, но элемент - это часть системы, и система реагирует (зачастую сопротивляется). Причем, почти всегда не так, как вы ожидали.

Тоби Лютке, фаундер Shopify, говорит об этом так:

Большинство людей мыслят причинно-следственно, но мир так не работает. Мир — это петли, а не линии»


Я наблюдаю, думаю и изучаю системы уже 20 лет. Когда я впервые построил модель Empatika, я был уверен: узкое место в продажах. Модель показала — в онбординге. Без неё я бы потратил полгода и кучу денег не туда. С тех пор я использовал системное мышление во всех своих компаниях и проектах.

Собственно, пришла пора систематизировать и обновить материалы, вновь поговорить про системы, поизучать их, заземлить на практические ситуации в личной и бизнес жизни.

"Бай, а где ЭйАй?" - вопрос, который мгновенно возник в моей голове, когда я стал продумывать детали. С такими стремительными изменениями, может, оно [системное мышление] нам не нужно вовсе? LLM-как все петли нарисует, рычаги найдет, и будет счастье.

Но, по крайней мере пока, для меня это скорее про помощь/фасилитацию в изучении и применении, нежели замена. И именно в этом ключе мы будем AI вспоминать и использовать на курсе.

Кстати, вот даже Харрисон Чейз, основатель LangChain, на днях в своей статье про изменения, которые несут AI кодинг ассистенты в разработку продуктов, высказался, что системное мышление - один из ключевых скиллов в этом новом дивном мире:

"In a world where execution is cheap, system thinking becomes the differentiator."


Стартуем курс в апреле, подробности тут: https://empatika.com/courses/ai-systems-thinking

Надеюсь, увидимся!
517👍15❤‍🔥7🔥2🫡2🤩1
EDU
Подумал, а почему бы тизеры к weekly митингам не делать так, м? Дурная голова Claude Code-у покоя не даёт
This media is not supported in your browser
VIEW IN TELEGRAM
По заявкам телезрителей - скилл для создания видео на базе remotion

что он делает:
1) интервьюирует вас: для кого видео, какова цель, какой стиль
2) дизайнит сценарий
3) использует remotion, чтобы его сгенерить
4) панелью экспертов делает ревью и улучшает

Попробуйте и присылайте свои результаты - например, по мотивам какого-то поста в этом канале

https://github.com/BayramAnnakov/remotion-video-director
128🏆3