Senior Software Vlogger
23.5K subscribers
508 photos
29 videos
2 files
1.02K links
Программирование и IT

Все ссылки и реклама https://xn--r1a.website/seniorsoftwarevlogger/3

Для РКН: 5035224480
Download Telegram
Они реализовали веса модели прямо в железе

Челики взяли llama 3.1 8B и сделали чип где намертво запаяны веса. В итоге карта выдает какие-то дикие ~17000 токенов в СЕКУНДУ

Я ещё помню процессоры без математического сопроцессора.

Представьте как у нас в компе будет железная модель. Да, одна. Да нельзя обновить. Примерно как с процессором в ноутбуке.

Покупаешь новый ноут - там модель лучше.

https://taalas.com/the-path-to-ubiquitous-ai/
🔥134👍30🤯2212🤓4🤣2
👍14😁84👏2😎2
Джек Дорси, создать Twitter и Square только что уволил 4000 человек потому что дела в его компании идут хорошо.

Но на самом деле потому что искусственный интеллект лучше работает в маленьких компаниях.

От таки дела, котята.

https://x.com/jack/status/2027129697092731343
🤣54🫡24👍76😱6
Пока подкаст на паузе наше сообщество ушло в подполье и живёт на регулярных созвонах.

За 7 баксов в месяц вы получаете доступ в мастермайнд технических директоров, менеджеров, лидов, архитекторов - людей которые решают технические и организационные задачи больше одного человека.

Мы много обсуждаем как что делать с ИИ, время такое, так и что делать с командами.

Тот самый no bullshit стафф кол, которого вам не хватает.

Программистов стараемся не пускать, поэтому у нас без духоты 😬

Вчера обсуждали, что делать если на проекте нет даже гита, например.

Подключится можно с любой картой через бусти или страйп https://teamleadtalks.com/munity/
1🤣44😁8🤯3🌚32💯1
Как вы знаете я разрабатываю Summit и в процессе я поднаторел, где и почему LLM лажает с суммаризацией. Сюрприз — всё то же самое воспроизводится в ИИ код-ревью.

## Размер убивает качество

Я начинал с тестирования коротких аудио и поэтому скармливал весь транскрипт целиком ЛЛМке. В итоге конечно пришлось разбивать на части, но потому что контекст у локальных моделей ограничен. Т.е. я разбиваю транскрипт, суммаризирую каждую часть отдельно, потом агрегирую. Однако для облачных провайдеров я думал оставить обработку в один проход.

Как же я удивился когда качество при таком подходе оказалось ниже, чем если использовать чанкинг и там и там.

То же самое происходит с код-ревью: PR на 10 000 строк — как двухчасовой митинг — слишком много контекста, поэтому модель теряет фокус. Прямо как мы ставим LGTM на такой PR, модель ловит банальные проблемы, но пропускает структурные. Иронично, что если код писать с помощью ИИ, то PR получаются тоже большие и выбить клин клином не получится, но попросить ИИ разбить изменение на несколько PR не сложно.

–––

## 2: Один промпт — один вопрос

Поначалу я просил Summit сделать всё сразу: «Вытащи ключевые инсайты, задачи, принятые решения и открытые вопросы. Make no mistakes»

Работало это прямо плохо. Модели давали кучу галлюцинаций. В итоге я перешел на несколько проходов: один промпт — одна задача.

Параллель с код-ревью тут прямая. Если в один промпт просить найти баги, проверить архитектуру, типы, да еще и стиль — то модель не может нормально сфокусироваться ни на чём, что-то находит, но мало и не там.

Решение: ревьювить надо кучей специализированных суб-агентов. Один ищет баги. Второй проверяет архитектуру. Каждый — с одной чёткой задачей.

–––

## 3: Проблема изоляции контекста

Тут у меня пока нет решения — но кажется, это самое важное.

Когда мы делаем код-ревью, мы не делаем его в изоляции. Мы знаем:
- Кто написал код: джун или перфекционист, который срезает углы только по железной причине?
- Как код развивалась последние пять лет.
- Что запланировано дальше — это меняет оценку сегодняшних компромиссов.
- Что было смержено на прошлой неделе, и почему.

ИИ не знает ничего из этого. Оно видит только диф и промпт.

Прямо как с митингами: когда мы пишем заметки во время митинга, мы помним что решили во вторник, кто в команде склонен обещать лишнего, что висит без решения уже месяцы, у кого просто рванул пердак и записывать не стоит.

Чтобы решить это для митингов можно например проактивно подгружать саммари предыдущих встречи с теми же участниками.

Для ревью загружать последних N коммитов перед ревью PR или предстоящие тикеты — чтобы ревьюер понимал куда движется кодовая база

Но понятное дело, что просто загружать предыдущие митинги не значит, что контекст актуален для этого звонка в том числе. Мы фильтруем контекст на лету, потому что у нас есть ментальная модель проекта.

Кажется, что двигаться нужно в сторону графа контекста, который бы размечал связи в данных, а не просто подтягивал строчки как это делает простой RAG.

В контексте код ревью узлами могут быть инженеры, коммиты, тикеты, решения. А ребрами - связи “написал”, “зависит от”, “блокирует”.

Так же обязательно дата изменений. Потому что более свежее решение имеет гораздо больший вес, чем старое.

Таким образом, когда модель будет делать ревью PR который меняет билинг, то вместо голого диффа, она увидит кто менял эти файлы в последний раз и почему, какие дальнейшие изменения запланированы, какие архитектурные ограничения тут есть и что тут ломалось после предыдущих изменений.

Если простой RAG найдет контекст по строчке билинг, то эта штука должна достать что-то типа: этот модуль отрефачили 2 недели назад из-за инцидента на проде, а функцию, которую PR меняет, вообще решено деприкейтить и даже тикет на это есть и автор этого PR тот же самый челик, из-за которого инцидент и произошел.

Примерно как любой сеньор и видит PR.

Так уж вышло, что я сейчас стараюсь решить эту 3 проблему как для Summit так и в компании. Так что о результатах напишу.
🔥9634👍17👀8🤝2🤓1
Любопытно как меняется качество вопросов в чатике с вайб-соло-пренёрами.

Сперва спрашивали какую модель лучше использовать.

Теперь гексагональная архитектура, выбор СУБД, очереди, бекапы, продакшон.

🥹
😁10514🔥7👌4
ДРАМА

Антропик сперва отказался сотрудничать с департаментом войны США даже манифест написали.

Сэм из Опен ИИ использовал эту возможность, пошел на сотрудничество с армией и получил 111 ярдов

Народ как обычно начал отменять подписки опении, покупать антропик, признаваться Дарио в любви...

А теперь Дарио сдал назад!

Сказал, что вошёл не в ту дверь заявление было ошибкой и принес извинения.

Вот ребята теперь совсем без подписок останутся. Надо же быть последовательными. Отменят же подписку на антропик?

Да нет конечно, просто язычок в попку сунут и будут дальше на Клоде сидеть. Альтернатив нет. Понимать надо.
3😁12620💯136👏2
ЛЛМы и обучение

Вчера на созвоне TeamLeadTalks обсуждали как, с одной стороны, ЛЛМы убирают первый уровень преград перед изучением новой темы: например, в моем случае с Summit, ЛЛМы написали весь код, позволив мне добраться до интересного — графа знаний.

С другой стороны, чтобы уже разобраться в этой теме человеку все еще нужно такое же количество времени как раньше — академический семестр как минимум. Плюс доступ к проверенным экспертам в данной области, к которым нельзя отнести ЛЛМ.
👍58
$25 за ревью

Говорят Amazon запретил джунам и мидлам мержить ИИ-код пока его не посмотрят сеньоры.

А антропик анонсировали ИИ код ревьювера, который тратит по $25 за ОДИН пул реквест, который их же клод и пишет 😄

Хорошие качели такие пошли.

Сеньоры в Амазоне такие: а чо может нам по 25 за пулл тоже будут платить или нет?
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤣246🤝16😁11103🔥2👍1😍1
Немного смешно видеть как пару месяцев назад вайбкод ребята бросились делать своих оркестраторов, чтобы можно было параллельно фигачить кучу фич на проекте. Нет, я тоже пробовал написать своего, но вовремя остановился.

Я заметил, что кучу потоков пилить совершенно точно можно, но при ряде условий:
У вас есть крепкое ядро проекта
У вас есть архитектура, которая позволяет агентам работать изолировано, границы проведены, ничего не протекает
Это ядро и архитектура задокументированы
У вас есть гора понятных фич, которые бы обычно отдавали мидлам и джунам

Я разрабатываю свой проект с июня и до того, как ядро сформировалось, я не мог запускать рой агентов, потому что все просто разваливалось. После формирования ядра — пришло время наколбасить гору простых фич и тут уж агенты развернулись. И писали код и конфликты разруливали. Все потому что я отдельное время уделил архитектуре.

Если раньше этот навык оставляли на откуп “архитекторам”, то сейчас это как будто база. Т.е. мидлы, сеньоры, да и тим лиды начинают чувствовать, что просто программирование начинает упираться в потолок и человеки из процесса вытесняются.

Практическим архитектурным штукам учат на курсе "Архитектура программного обеспечения" от Яндекс Практикума PRO. Вот прямо на практике — курс построен на одиннадцати реальных проектах.

Ты спроектируешь архитектуру для банка, будешь строить evet-driven приложение и напишешь ARD под реальный кейс. Освоишь работу с k8s, микросервисами, мониторингом, безопасностью — не по учебнику, а на кейсах из реальных рабочих задач. Всё это ведут практикующие архитекторы из финтеха, телекома, и-комерс.

Ещё ты научишься:
- проектировать RAG-бота;
- работать с векторными базами;
- встраивать ЛЛМ в реальные продукты.

Встроить обучение можно даже в напряженный график: на выбор 2 формата - с дедлайнами или в своём темпе.

До конца марта, после прохождения вводной части, получишь скидку 16% на весь курс.

Попробовать можно прямо сейчас, бесплатно — первые уроки и входной тест для оценки текущих навыков доступны всем желающим, карту привязывать не нужно.

> Переходи по ссылке и начинай обучение <

Реклама, ООО Яндекс, ИНН 7736207543, erid: 2Vtzqvo6DG1
🤣201🌚3010👍8😱5🤯2
До ИИпокалипсиса когда я видел в должности человека или компании AI у меня как то уважение появлялось сразу, сейчас мне пишут десятки AI продуктов в неделю с предложением афилки или в друзья в линкедине напрашиваются сплошь спецы по AI.

Да, я и сам в каком то смысле AI фаундер. Думаю только этот факт говорит о многом.
1👍55🤣487😁3
Если мне предложат октокотики я просто скажу нет.

С 24 апреля микрософт официально начнет использовать ваши данные для обучения своих необучаемых моделей.

https://github.blog/news-insights/company-news/updates-to-github-copilot-interaction-data-usage-policy/
🤯51👏65😁2
Клод код утек в сеть

— Пжжи, а он был не опен сомрс?

Нет, дурашка. Они же не хотят, чтобы конкуренты на их коде обучили свои модели! 🌚

Поэтому код закрыт, а утек он по старой схеме - через мап файл тайпскрипта который не вайб-вычистили из npm пакета.

Понятное дело бантропик тут же начал банить репозитории опубликовавшие код, но нашлись умельц_ы которые переписали код на питоне и обошли копирайт.

Переписали используя кодекс от опен ии.

Смех смехом, а Клод код кверху мехом. Будут ли они настаивать, что так делать нельзя? Будут ли потом закручивать свои модели, чтобы они отказывались транслировать проекты с одного языка на другой?

Скорее всего всей правды мы не узнаем, но в коде были прикольные промпты, чтобы Клод прикидывался человеком когда открывает PR в опенсорс проекты. Чтобы все co-authored with claude удалялись 🥹

https://github.com/instructkr/claw-code
😁5929👍15🤣6🔥2👀2
Приоритеты не врали

Чем глубже проникает ИИ а разработку тем для меня очевиднее становится, что приоритеты не врали.

Там где раньше тикет бы просто закрыли, теперь - пробуют написать с ллм. Сперва кажется, что будет быстрее, но на стадии "пофиксить баги и задеплоить" время улетает в трубу. Плюс теперь же можно сделать красивый интерфейс, а ещё конфигурацию на скриптах!

Раздолье!

И там где ранее прагматичный человек ускоряется - отдал сразу 50 багов агентам и пошел фичу ревьювить, человек мечтатель теряет ещё больше времени - думает на своим маленьким "продуктом" соскользнув на оьещании, что оно само за тебя все сделает.

Короче важность приоритетов никуда не ушла. Прагматичность стала ещё важнее. Тул крутой, но надо учиться.

Ничего нового.
👍88💯10😱3👀1🤝1
Оказывается гитхаб лежит не потому что они навайбкодили, а потому что мы навайбкодили. Ну или и то и другое.

Я уже писал раньше, что систему хранения кода придется пересмотреть.

Вернее, я призывал вытирать кодом жопу, но постоянный читатель знает, что я всегда довожу аргумент до абсурда.

В мире, где все решили наконец то выполнить все несрочные задачи, хранить код с аккуратной историей комитов не обязательно.
🤣10813💯6🤯4😢2
Линкедин подозревают в шпионаже

Пишут, что сайт сканирует расширения в хроме и собирает всю информацию какую только можно: расширения, которые выдают вероисповедание, политические взгляды, конкурентов линкедина, расширения для поиска работы.

Одним словом все расширения которые у вас есть документируются и чтобы составить ваш профиль.

Сами линки говорят, что они это делают только чтобы ловить скраперов данных, но Fairlinked e.V. говорят, что это не так.

Впрочем указывая, что не только линки этим занимаются.

Само по себе это не брешь и не взлом. Это документированная фича хрома, что к файлам расширения можно обратиться зная идентификатор расширения. И линкедин просто брутфорсит запросы по списку из своей базы. Пдробнее написали здесь https://browsergate.eu/how-it-works/

Надерут ли им жопу вопрос открытый. ЕС в последнее время очень любит штрафовать американские IT компании.

https://browsergate.eu/
38😁19👀6👍4😱1
Фигачил сегодня эвал тесты локальных моделей для https://summitnotes.app/

Это когда вы пишете сами желаемый результат или берете выдачу фронтир модели, потом гоняете подопытную модель, а фронтир моделью как судьей смотрите насколько подопытная попала или нет в золотой стандарт (да, я до этого гонял такие тесты руками).

Это позволило мне погонять цикл оптимизации промпта, когда Клод смотрит на выдачу локальной модели, замечает косяки и пробует исправить промпт, потом прогоняет еще раз. Любопытно, что у него получилось улучшить результат.

Очень удивился, что Qwen3-30B оказался хуже 8B, а потом клод указал, что это A3B MoE модель, о чем я знал, но почему-то упустил (немного стыдно).

Штука в том, что у нее всего 3B активных параметров. Т.е. она больше знает, но хуже думает, а 8B думает всеми 8 миллиардами и в итоге лучше следует структурному выводу.

Но тут нужно определиться что значит “хуже”, я же не софт пишу и не математику складываю. Хуже это когда модель не указала детали, или не нашла задачи на будущее. Что не делает текст полностью непригодным, особенно когда не видишь в сравнении:

insight_accuracy score: 3/5
The insights are generally accurate but lack precision. For example, insight doesn't specify the actual numbers (92% vs 98% requirement)…


action_precision score: 1/5
The candidate identifies no action items at all, showing 'NO' in raw responses. This is a critical failure as the golden output contains 5 specific action items including XXX adding YYY to…

Короче, интересно. Больше не всегда лучше. Сравнимые по характеристикам модели ведут себя совершенно по-разному. Теперь буду двигаться к Qwen3.5.
34👍18🔥9👀2
Система грейдов им. Рожкова

Немного устал, когда говорят, что нет общего понятия сеньор в индустрии, а тем более стафф! Потому что понятие есть, другое дело, что выдают лычки как попало. Иногда чтобы предотвратить истерику. Иногда потому что нанимать - это тот его квест, пусть лучше свой ходит царь во дворца.

Короче, ниже общая единая объективная планетарная система грейдов программистов имени Рожкова. Джунов пропускаем, им Клод пусть рассказывает.

Основных определяющих качеств 3

1. Как программист умеет работать с неопределенностью
2. Вклад и широта охвата
3. Влияние

Самое важное, что следует понять, что шкала — не линейный прогресс скилов, а изменение идентичности!

От человека, который исполняет работу на мидле и решает проблемы на сеньоре в челвоека, который обнаруживает проблемы на стаффе.

1. Работа с неопределенностью

- Мидл получает хорошо расписанный тикет и перерабатывает чужие спеки в код (прямо как ИИ).
- Сеньор берет размытое описание задачи и решает ее обходя блоки
- Стафф работает с проблемами, которые еще никто не обнаружил. Он находит проблемы, о которых еще никто не подозревает или не знают как подступиться

2. Вклад и широта охвата или IMPACCC

- Мидл - фичи. Педалит маленькие и средние компоненты
- Сеньор - проблемы. Существенные части продукта или зоны ответственности команды
- Стафф - команды. Работает со всем доменом, работает на уровне нескольких команд

3. Влияние

- Мидл отвечает за свой собственный рост и влияет на людей в непосредственной близости
- Сеньор менторит новоприбывших, защищает технические решения, может растолковать нетехническим людям за свою зону ответственности
- Стафф - влияет на направление нескольких команд, строит консенсус, тренит людей внутри всей организации

Поэтому когда я повышаю человека до стаффа, я говорю: поздравляю-пошелнахуй. Теперь ты говоришь мне что надо делать, а я буду с тобой как обычно спорить. Твоя задача - собрать такую доказательную базу, чтобы мне нечего было тебе возразить. Сеньору, я кстати говорю примерно то же самое, только еще работаю его коучем на пол ставки. Потому что если сеньор не научится находить проблемы, собирать вокруг решения людей и затаскивать направления — то в стаффах ему делать нечего. Так и сидят в сеньорах вместо того чтобы идти проблемы искать.

Подпись, дата

Пользуйтесь
616254👍35😁35🔥3🤯3🌚2
У меня недавно кликнул Colemak. Это было довольно болезненно, но теперь английский ощущается как будто вообще пальцы с домашнего ряда не уходят.

Но не рекомендую.

В процессе мозг враскоряку встал, когда новое еще не освоил, а старое сломалось.

Из особенностей сплита: похоже Colemak встал когда руки на сплите, когда на ноутбуке - пишу на qwerty.

Короче пиздец. Не пробуйте.
1😱327👍6🤯54
— “Мне так Клод сказал”

Пожимая плечами ответил коллега* на вопрос почему в отчете 2+2=5.

Меня точно нельзя назвать отрицателем или ИИ скептиком, но в последнее время люди прямо уверовали и вообще перестали проверять вывод моделей.

У меня есть несколько приемов работы с контекстом: я обычно несколько моделей стравливаю, чтобы спорили. Или прошу предоставить traceable proof в форме ссылок или выдержки из исходных данных.

Ещё помогает если сказать, что тебе надо победить кого-то в споре, но нельзя потерять лицо если ты попадешься на выдуманных аргументах.

Короче когда нет времени думать я как минимум манипулирую контекстом модели чтобы она не ленилась.

Но это все срезки, на самом деле лучше как с людьми подключать критическое мышление.

Смешно, что это не какой-то абстрактный термин, а вполне себе практика, которой можно целенаправленно научиться.

Например в Яндекс Практикуме PRO на одноименном курсе «Навыки критического мышления для менеджеров».

Курс довольно компактный, никаких 2 лет по вечерам – всему научат за 2 месяца.

В бесплатной части курса есть тест на навыки анализа, логики и аргументации разработанный НИУ ВШЭ. Пройдёте тест и поймёте нужен ли вам курс, получите оценку уровня критического мышления и список литературы для самообразования.

Ещё любопытно, что курс из программы менеджеров, а не разработчиков. Работа с ИИ как раз работу менеджера напоминает.

Короче го учиться критически мыслить, чтобы не выглядеть глупо перед коллегами.

Реклама, ООО Яндекс, ИНН 7736207543, erid: 2VtzqwZjVRq
🤣183🌚19👍86🫡5🤯31