Senior Software Vlogger
23.5K subscribers
508 photos
29 videos
2 files
1.01K links
Программирование и IT

Все ссылки и реклама https://xn--r1a.website/seniorsoftwarevlogger/3

Для РКН: 5035224480
Download Telegram
У кило кода неделя бесплатной Кими, которая почти Опус 4.5

https://blog.kilo.ai/p/were-making-kimi-k25-free-for-one
👍24👀93
Forwarded from Тысяча фичей
60. Claude Code и инженерная ответственность с Senior Software Vlogger.

Дмитрий Рожков (https://xn--r1a.website/seniorsoftwarevlogger) — создатель приложения Summit AI Notes, делится опытом разработки коммерческого macOS приложения с использованием Claude и других LLM, не будучи Swift-разработчиком. Обсуждаем практические аспекты AI-assisted программирования, трансформацию code review, инженерную ответственность при работе с моделями, и будущее разработки с искусственным интеллектом.
--

Авторский тгк Саши @toxic_enterprise
Альтер эго Саши @sashimi_pub
--

🎧 Слушать в Apple Podcasts | Spotify | Яндекс | браузер
18🔥11👍6👾2🆒1
Готовим CV для выхода на рынок 🙆

Рекомендую метапромпт от Никиты на прожарку вашего резюме. Он конечно оптимизирован под дата инженера, но эту часть вы можете адаптировать под себя.

Никита давний и активный участник сообщества @teamleadtalks_com, в теме разбирается, рекомендую по дружески от сердца.

https://xn--r1a.website/analytics_engineer/88
👍21😁8🔥5
Смотрите, что планируют

https://read.compose.llc/p/our-keyboard-design-reveal
😢19🌚96🫡5😍4😁3👾1
Подумать только, после стольких лет сидения на булках я таки запустил пет проект! Увольнялся ли я при этом? Нет и не собираюсь. Пилю по вечерам и выходным, сейчас больше сфокусирован на продвижении, например. На самом деле так начинали и начинают такие мастадонты как Твиттер. Я конечно не думаю, что мою приложеньку купит Илон Маск, но уже черпаю кучу опыта, которую не получал на работе.

Всю жизнь у меня было уйма вопросов:

– Мои идеи все тупые и очень нишевые, все равно делать?
– Ну вот я сделаю, а как продать (в итоге ничего не делал)?
– Как потом свести экономику с рекламой?

На канал Михаила Табунова «Твой пет проект» я подписался еще после первой рекламы на моем канале, там делится своим опытом с разработчиками и менеджерами.

Михаил рассказывает, где искать идею для нового проекта, что нужно знать о маркетинге, как запустить стартап и привлечь первых 10 клиентов, а также о многих других важных вещах.

Тоже подписывайтесь на «Твой пет проект» будем фигачить все вместе!

#реклама, ИП Табунов Михаил Валерьевич, ИНН: 773379585100
😁51👍6👌311
Агенты в дата-платформах 🤖

Я уже полгода вожусь с разными дата агентами и другими GenAI решениями для данных. Кодинг / контекст ассистенты уже поменяли индустрию кардинально, а с внутренними агентами ситуация еще интереснее 😘.

Допустим, у вас в проде крутится дата агент-оркестратор. Он рулит десятком других агентов, те дёргают ещё по 10 тулов каждый.

Сценарий успеха: автоматизировали дата-платформу на 95%, радикально порезали косты, оставили 4 инженеров на on-call и одного визионера-архитектора минимум людей. Звучит топ (для менеджмента 🍷).

Какие подводные камни могут быть на этом пути? (Список не полон и нужны посты для раскрытия каждого)

1. Garbage in — garbage out во всем, начиная со спеки 🗑️

Как удостовериться, что требования на систему (написанные, конечно же, тоже с помощью GenAI) были полными и учитывало весь контекст? Claude генерит тонны кода, решающие неверную задачу. Раньше garbage in давал вам один кривой пайплайн (с фиксом на PR), а теперь - двадцать, и кривую дата платформу в придачу.

2. Недетерминированность и «а сколько процентов вас устроит?» 🎲

Какой процент корректности ок для полностью автоматизированных задач? Автозапуск backfilling, пропуск DQ-тестов при низком риске — 93%? 97%? 99%? Любая из этих цифр (часто взятая с потолка) нуждается в риск-менеджменте и готовности тушить прод, когда агент решит что-то оптимизировать сломать.

Context mismatch: агент просто решил не запускать tooling и начинает принимать решения хорошо, если только на неполном контексте, а иногда еще и нагаллюцинированном.

3. Инфраструктурные косты 💸

Если вы на on-prem - готовьтесь к x5-10 росту нагрузки (консервативно, если у вас еще нет ральф луперов в 5-10 окнах claude). Если в клауде - 👋 вашим бюджетам на compute (кек, особенно если у вас ещё и мультиклауд). Из интересного: скорее всего увидим активное улучшение дата-каталогов и меты. Агенты, пытаясь «понять» незнакомую таблицу, часто делают SELECT-ы прям в базу, а если дата профайлинг уже сделан, то метаданные превращают все это в one write - multiple reads на кешах.

4. On-call 🚨

Техническая сторона: галлюцинации + шквал false-positive алертов. Нужны десятки итераций для калибровки guardrails и eval-метрик вашего агента, и доработки corner cases.

Еще веселее человеческая сторона. GenAI решает простые алерты (пока 😂). А онбординг человека это понять паттерны на пуле таких базовых задач для набивки руки и контекста. Что будет делать джун, когда его первым инцидентом станет сложнейший нетипичный сбой? Спокойно закопается в код для дебага Пойдёт в панике промптить, надеясь на то, что он по устаревшему runbook что-то да соберет.

5. Демократизация разработки с GenAI 🧟

С развитием coding-агентов и text-to-pipeline генерация пайплайнов / etl frameworks уходит в массы. Если вы боттлнек, то бизнес вас обойдёт. Либо технически - нагенерив SQL на 5000 строк для своей витрины, либо политически - через эскалацию до VP с фразами «дата-команда тормозит time-to-market».

6. Security / prompt injection 🔓

Если агент смотрит на данные (таблицы, логи, тикеты, конфиги) любой текст может стать инструкцией.

Банальный пример: поле comment в таблице. До 2025 -> ну лежит там мусор, ок, 2026 -> Агент залогирует перс данные, выдаст доступы, выполнит "полезную" команду, подсунутую через контент. В DQ внезапно стал еще и security, и вашему DQ фреймворку нужны совсем другие тесты (Вы еще не делаете LLM-as-a-Judge? Тогда мы идем к вам :D)

7. Accountability: кто виноват? ⚖️
Генерация документации / постов / емейлов - первое, что делегируют LLM и даже уже не читают. Как ты тестировал? Ну запустил агента, вот output, а то что там явным текстом прописано, что есть проблемы, уже не важно, главное заполнить тест план =).

Так же появляется размытость accountability между командой, которая делала дата агента, и продуктовой командой, которая его использует.

---

В общем, добро пожаловать в эру data janitors and debuggers по GenAI-инцидентам, будет хуже весело 🙂

P.S. А есть русскоязычные коммьюнити по дата агентам, или есть смысл сделать тг чат для брейншторминга?
Please open Telegram to view this post
VIEW IN TELEGRAM
30👍17🔥3💯1🫡1
Буду с докладом на AI Hard Fork — это онлайн-конфа о том, как AI меняет процессы разработки, и как этими изменениями управлять.

Конференцию организуют Стратоплан и Entropy Talk. Они пригласили Head of AI и СТО крупных банков, ex-CTO Booking, МЕНЯ, Степана Гершуни, автора «эйай ньюз», а также со-основателей Школы Стратоплан.

Будем вам рассказывать и показывать
• реальные истории успехов и провалов внедрения ИИ в существующих проектах
• как и где ИИ меняет управление (в разработке) и что отличает команды, которые успешно внедряют ИИ
• что мешает построению ИИ-центричных организаций, почему внедрение ИИ будет только расти

В частности я попробую рассказать не про агентизацию разработки, а про другую сторону — про рутину и операционку.

Регистрация здесь

Когда и где: 24-26 февраля, онлайн или в записи

Для кого: senior engineers, тех- и тим-лидов, СТО и VP of engineering, фаундеров

Ждём вас онлайн!
👍30🔥1711😢1
Если вы откладывали покупку https://summitnotes.app/, но приложение вам нравится, то лучше это сделать прямо сейчас.
1😁443
Спрашивали про чат для пользозвателей, чтобы баги и фичи репортить, я сделал канал. Фич очень много, буду о них писать туда. Например, как настроить экспорт в Obsidian на который я сам перешел с Notion чтобы агентам проще было мне помогать.

@summitainotes
👍158🔥3🤣1
Они реализовали веса модели прямо в железе

Челики взяли llama 3.1 8B и сделали чип где намертво запаяны веса. В итоге карта выдает какие-то дикие ~17000 токенов в СЕКУНДУ

Я ещё помню процессоры без математического сопроцессора.

Представьте как у нас в компе будет железная модель. Да, одна. Да нельзя обновить. Примерно как с процессором в ноутбуке.

Покупаешь новый ноут - там модель лучше.

https://taalas.com/the-path-to-ubiquitous-ai/
🔥134👍30🤯2212🤓4🤣2
👍14😁84👏2😎2
Джек Дорси, создать Twitter и Square только что уволил 4000 человек потому что дела в его компании идут хорошо.

Но на самом деле потому что искусственный интеллект лучше работает в маленьких компаниях.

От таки дела, котята.

https://x.com/jack/status/2027129697092731343
🤣54🫡24👍76😱6
Пока подкаст на паузе наше сообщество ушло в подполье и живёт на регулярных созвонах.

За 7 баксов в месяц вы получаете доступ в мастермайнд технических директоров, менеджеров, лидов, архитекторов - людей которые решают технические и организационные задачи больше одного человека.

Мы много обсуждаем как что делать с ИИ, время такое, так и что делать с командами.

Тот самый no bullshit стафф кол, которого вам не хватает.

Программистов стараемся не пускать, поэтому у нас без духоты 😬

Вчера обсуждали, что делать если на проекте нет даже гита, например.

Подключится можно с любой картой через бусти или страйп https://teamleadtalks.com/munity/
1🤣44😁8🤯3🌚32💯1
Как вы знаете я разрабатываю Summit и в процессе я поднаторел, где и почему LLM лажает с суммаризацией. Сюрприз — всё то же самое воспроизводится в ИИ код-ревью.

## Размер убивает качество

Я начинал с тестирования коротких аудио и поэтому скармливал весь транскрипт целиком ЛЛМке. В итоге конечно пришлось разбивать на части, но потому что контекст у локальных моделей ограничен. Т.е. я разбиваю транскрипт, суммаризирую каждую часть отдельно, потом агрегирую. Однако для облачных провайдеров я думал оставить обработку в один проход.

Как же я удивился когда качество при таком подходе оказалось ниже, чем если использовать чанкинг и там и там.

То же самое происходит с код-ревью: PR на 10 000 строк — как двухчасовой митинг — слишком много контекста, поэтому модель теряет фокус. Прямо как мы ставим LGTM на такой PR, модель ловит банальные проблемы, но пропускает структурные. Иронично, что если код писать с помощью ИИ, то PR получаются тоже большие и выбить клин клином не получится, но попросить ИИ разбить изменение на несколько PR не сложно.

–––

## 2: Один промпт — один вопрос

Поначалу я просил Summit сделать всё сразу: «Вытащи ключевые инсайты, задачи, принятые решения и открытые вопросы. Make no mistakes»

Работало это прямо плохо. Модели давали кучу галлюцинаций. В итоге я перешел на несколько проходов: один промпт — одна задача.

Параллель с код-ревью тут прямая. Если в один промпт просить найти баги, проверить архитектуру, типы, да еще и стиль — то модель не может нормально сфокусироваться ни на чём, что-то находит, но мало и не там.

Решение: ревьювить надо кучей специализированных суб-агентов. Один ищет баги. Второй проверяет архитектуру. Каждый — с одной чёткой задачей.

–––

## 3: Проблема изоляции контекста

Тут у меня пока нет решения — но кажется, это самое важное.

Когда мы делаем код-ревью, мы не делаем его в изоляции. Мы знаем:
- Кто написал код: джун или перфекционист, который срезает углы только по железной причине?
- Как код развивалась последние пять лет.
- Что запланировано дальше — это меняет оценку сегодняшних компромиссов.
- Что было смержено на прошлой неделе, и почему.

ИИ не знает ничего из этого. Оно видит только диф и промпт.

Прямо как с митингами: когда мы пишем заметки во время митинга, мы помним что решили во вторник, кто в команде склонен обещать лишнего, что висит без решения уже месяцы, у кого просто рванул пердак и записывать не стоит.

Чтобы решить это для митингов можно например проактивно подгружать саммари предыдущих встречи с теми же участниками.

Для ревью загружать последних N коммитов перед ревью PR или предстоящие тикеты — чтобы ревьюер понимал куда движется кодовая база

Но понятное дело, что просто загружать предыдущие митинги не значит, что контекст актуален для этого звонка в том числе. Мы фильтруем контекст на лету, потому что у нас есть ментальная модель проекта.

Кажется, что двигаться нужно в сторону графа контекста, который бы размечал связи в данных, а не просто подтягивал строчки как это делает простой RAG.

В контексте код ревью узлами могут быть инженеры, коммиты, тикеты, решения. А ребрами - связи “написал”, “зависит от”, “блокирует”.

Так же обязательно дата изменений. Потому что более свежее решение имеет гораздо больший вес, чем старое.

Таким образом, когда модель будет делать ревью PR который меняет билинг, то вместо голого диффа, она увидит кто менял эти файлы в последний раз и почему, какие дальнейшие изменения запланированы, какие архитектурные ограничения тут есть и что тут ломалось после предыдущих изменений.

Если простой RAG найдет контекст по строчке билинг, то эта штука должна достать что-то типа: этот модуль отрефачили 2 недели назад из-за инцидента на проде, а функцию, которую PR меняет, вообще решено деприкейтить и даже тикет на это есть и автор этого PR тот же самый челик, из-за которого инцидент и произошел.

Примерно как любой сеньор и видит PR.

Так уж вышло, что я сейчас стараюсь решить эту 3 проблему как для Summit так и в компании. Так что о результатах напишу.
🔥9634👍17👀8🤝2🤓1
Любопытно как меняется качество вопросов в чатике с вайб-соло-пренёрами.

Сперва спрашивали какую модель лучше использовать.

Теперь гексагональная архитектура, выбор СУБД, очереди, бекапы, продакшон.

🥹
😁10514🔥7👌4
ДРАМА

Антропик сперва отказался сотрудничать с департаментом войны США даже манифест написали.

Сэм из Опен ИИ использовал эту возможность, пошел на сотрудничество с армией и получил 111 ярдов

Народ как обычно начал отменять подписки опении, покупать антропик, признаваться Дарио в любви...

А теперь Дарио сдал назад!

Сказал, что вошёл не в ту дверь заявление было ошибкой и принес извинения.

Вот ребята теперь совсем без подписок останутся. Надо же быть последовательными. Отменят же подписку на антропик?

Да нет конечно, просто язычок в попку сунут и будут дальше на Клоде сидеть. Альтернатив нет. Понимать надо.
3😁12620💯136👏2
ЛЛМы и обучение

Вчера на созвоне TeamLeadTalks обсуждали как, с одной стороны, ЛЛМы убирают первый уровень преград перед изучением новой темы: например, в моем случае с Summit, ЛЛМы написали весь код, позволив мне добраться до интересного — графа знаний.

С другой стороны, чтобы уже разобраться в этой теме человеку все еще нужно такое же количество времени как раньше — академический семестр как минимум. Плюс доступ к проверенным экспертам в данной области, к которым нельзя отнести ЛЛМ.
👍58
$25 за ревью

Говорят Amazon запретил джунам и мидлам мержить ИИ-код пока его не посмотрят сеньоры.

А антропик анонсировали ИИ код ревьювера, который тратит по $25 за ОДИН пул реквест, который их же клод и пишет 😄

Хорошие качели такие пошли.

Сеньоры в Амазоне такие: а чо может нам по 25 за пулл тоже будут платить или нет?
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤣245🤝16😁11103🔥2👍1😍1
Немного смешно видеть как пару месяцев назад вайбкод ребята бросились делать своих оркестраторов, чтобы можно было параллельно фигачить кучу фич на проекте. Нет, я тоже пробовал написать своего, но вовремя остановился.

Я заметил, что кучу потоков пилить совершенно точно можно, но при ряде условий:
У вас есть крепкое ядро проекта
У вас есть архитектура, которая позволяет агентам работать изолировано, границы проведены, ничего не протекает
Это ядро и архитектура задокументированы
У вас есть гора понятных фич, которые бы обычно отдавали мидлам и джунам

Я разрабатываю свой проект с июня и до того, как ядро сформировалось, я не мог запускать рой агентов, потому что все просто разваливалось. После формирования ядра — пришло время наколбасить гору простых фич и тут уж агенты развернулись. И писали код и конфликты разруливали. Все потому что я отдельное время уделил архитектуре.

Если раньше этот навык оставляли на откуп “архитекторам”, то сейчас это как будто база. Т.е. мидлы, сеньоры, да и тим лиды начинают чувствовать, что просто программирование начинает упираться в потолок и человеки из процесса вытесняются.

Практическим архитектурным штукам учат на курсе "Архитектура программного обеспечения" от Яндекс Практикума PRO. Вот прямо на практике — курс построен на одиннадцати реальных проектах.

Ты спроектируешь архитектуру для банка, будешь строить evet-driven приложение и напишешь ARD под реальный кейс. Освоишь работу с k8s, микросервисами, мониторингом, безопасностью — не по учебнику, а на кейсах из реальных рабочих задач. Всё это ведут практикующие архитекторы из финтеха, телекома, и-комерс.

Ещё ты научишься:
- проектировать RAG-бота;
- работать с векторными базами;
- встраивать ЛЛМ в реальные продукты.

Встроить обучение можно даже в напряженный график: на выбор 2 формата - с дедлайнами или в своём темпе.

До конца марта, после прохождения вводной части, получишь скидку 16% на весь курс.

Попробовать можно прямо сейчас, бесплатно — первые уроки и входной тест для оценки текущих навыков доступны всем желающим, карту привязывать не нужно.

> Переходи по ссылке и начинай обучение <

Реклама, ООО Яндекс, ИНН 7736207543, erid: 2Vtzqvo6DG1
🤣201🌚309👍8😱5🤯2