Книжный куб
14.2K subscribers
2.87K photos
6 videos
6 files
2.18K links
Рекомендации интересных книг, статей и выступлений от Александра Поломодова (@apolomodov), технического директора и эксперта в архитектуре (no ads in channel)
Download Telegram
State of FinOps 2026: почему FinOps становится экономическим control plane для AI-native engineering (Рубрика #Survey)

Изучил свежий State of FinOps 2026. Главный тезис: FinOps окончательно перестал быть практикой про объяснение вчерашнего счета за облачное потребление и стал слоем управления стоимостью технологий, включая AI, SaaS решения, лицензии, приватные облака, датацентры и даже ФОТ (фонд оплаты труда). Не случайно FinOps Foundation в 2026 году официально сменила формулировку миссии с "value of cloud" на "value of technology", а в самом Framework добавила отдельную capability "Executive Strategy Alignment".

В своем опросе авторы снимали срез по всей операционной модели FinOps: текущие и будущие приоритеты практики, оргструктуру и место команды в компании, требуемые навыки, расширение охвата на новые технологические категории, работу с AI тратами и AI в самом FinOps, взаимодействие с соседними дисциплинами, пробелы в инструментах и движение к единому формату cost/usage data через FOCUS (FinOps Open Cost & Usage Specification). Итого, видно, что это отчет не просто про оптимизацию потребления облачных ресурсов, а обзор того, как меняется экономический контур инженерной организации.

С точки зрения методологии это ежегодный опрос-срез сообщества FinOps Foundation: шестой по счету с 2020 года, 1,192 респондента, суммарно представляющие компании с $83+ млрд ежегодных трат на AI. Состав был такой: 47% крупные корпорации, 33% корпорации и 20% малый и средний бизнес. География была такая: 35% EMEA, 34% North America, 16% APAC и 15% South/Central America. Сами выводы исследования достаточно интересны

1️⃣ AI стал главным объектом FinOps
- 98% респондентов уже управляют AI расходами и FinOps для AI - это главный приоритет на следующие 12 месяцев (а также самые большой пробел в скиллах).
- Одновременно растет использование AI внутри самой FinOps-практики для детекции аномалий, правильного сайзинга, аллокации затрат и автоматизации всего этого. При этом основные боли пока очень базовые: visibility, аллокация по бизнес-юнитам и попытка вообще понять value/ROI AI-инвестиций

2️⃣ FinOps окончательно вышел за пределы public cloud
- 90% уже управляют SaaS или планируют делать это в ближайший год, 64% - лицензиями, 57% - приватными облаками, 48% - датацентрами; еще 28% добрались до ФОТов.
- Здесь особенно важна не сама ширина охвата, а сдвиг логики - зрелый FinOps переходит от поиска потерь к управлению инвестиционными компромиссами между технологиями

3️⃣ FinOps сместился в организации вверх

- 78% команд теперь сидят под CTO/CIO, а не под CFO; 60% работают как централизованные команды для enablement
- Даже у компаний с $100M+ затратами команды остаются очень небольшими - в среднем 8–10 сотрудников и 3–10 контракторов
- Это очень похоже на платформенные команды: они масштабируются не headcount’ом, а стандартами, автоматизацией и федерализацией
- Параллельно растет влияние FinOps на технологический выбор

4️⃣ Shift-left в FinOps стал реальностью, но измерения пока не догнали практику
- Среди самых желанных возможностей инструментов - гранулярный мониторинг костов на AI, оценка костов перед реализацией и деплоем архитектурных изменений и единый дащборд по разным типам технологических затрат
- Интересно, что комьюнити уже движется от реактивных дашбордов к проактивным и автоматизации в реальном времени, но до сих пор плохо понимает, как измерять избегание затрат (cost avoidance) от предотвращенных проблем

5️⃣ FOCUS становится источником данных для этого нового FinOps

- По мере расширения практики на AI, SaaS и датацентры организациям нужен единый язык billing/cost данных
- Именно поэтому FOCUS в отчете идет как инфраструктурная тема, а не как "еще один стандарт"

В общем, это интересный опрос от сообщества и хороший ресурс по экономическим вопросам управления технологиями (раньше я с ним знаком не был)

#Economics #Management #Engineering #Leadership #Software #AI #Metrics
7🔥4👍3🤨1
Engineering Leadership: The Hard Parts (Рубрика #Management)

Я люблю читать книги про менеджмент, которые не пытаются продать "лидерство" как набор красивых поз или фраз. И новая книга O’Reilly "Engineering Leadership: The Hard Parts", вышедшая в начале 2026 года, выглядит интересной ровно из-за этого. Авторы решили в ней рассказать про ту часть работы, где приоритеты съезжают, ресурсов не хватает, процессы скрипят, а работу все равно надо сделать. Ее написали Хуан Пабло Буритика и Джеймс Тернбулл. Первый - CTO Convergint с опытом Stripe и Splice, а второ - старший вице‑президент по разработке там же, который до этого успел поруководить в Kickstarter, Docker, Venmo и ряде других компаний, а также он успел до этой книги написать несколько других технических книг.

По оглавлению видно, что книга идет от неопределенности и роли руководителя к темам работы с командой, задания направления, поставки результата, работы с бюджетом, определения технических принципов, а также совместных решений и метрик. То есть разговор здесь не только про личные встречи с сотрудниками и оценку работы, а про весь фулхауз сразу: люди, продукт, процесс, деньги и технологии.

Особенно хорошо, что

1️⃣ Авторы начинают с диагностики хаоса. Не с мечты про идеальную команду, а с признаков того, что система уже едет: нет владельцев, слабая коммуникация, культура поиска виноватых, режим постоянного пожара, отсутствие внятных измерений. Это хороший заход, потому что многие книги по управлению начинают там, где у читателя уже "все хорошо". Я тоже люблю говорить менти, что упоминают про сложности новой работы, о том, что если бы все было хорошо, то вас бы не позвали руководить этим направлением:)
2️⃣ Роль технического руководителя они раскладывают через несколько опор: люди, смысл работы, план, процесс и результат. Сильная мысль тут простая: руководитель - это не "бывший лучший разработчик", а многорукий шива или как описывают авторы "generalist with range", который связывает команду, направление и способ работы в одну систему.
3️⃣ Есть сильный блок про работу в хаосе. Авторы не выдают "универсальный шаблон", а скорее дают набор ментальных моделей: сначала понять контекст, потом выбирать действие; смотреть на результат, а не на суету; проговаривать компромиссы вслух; строить не героизм, а систему, в которой людям проще двигать работу.
4️⃣ Книга не застревает только на вопросе людей. Там есть приоритизация, очередь задач, баланс между новыми функциями и техническим долгом, прозрачность приоритетов. А потом - бюджеты, расходы, подрядчики, спор "делать самим или покупать", а следом технические принципы и стратегия. Такой диапазон тем в одной книге встречается нечасто
5️⃣ Завершается все инженерными практиками и метриками. И это может быть одна из самых ценных частей. Многие организации либо вообще не умеют мерить инженерную работу, либо превращают метрики в дубинку. Здесь же по оглавлению видно более здоровый подход: метрики надо проектировать под вопрос и не фетишизировать скорость разработки (velocity)

Если ставить книгу рядом с книгами Will Larson, то сравнение у меня такое
- An Elegant Puzzle - это сильная системная книга про инженерный менеджмент: размер команд, технический долг, планирование преемственности, организационные решения (см. мой пост)
- Engineering Leadership: The Hard Parts - это более приземленная книга про повседневную работу руководителя внутри уже шумящей системы
В общем, их можно отлично совмещать.

#Engineering #Management #Leadership #Processes #Strategy #Metrics
👍307🔥4
Как Hyundai сделал то, что не смогли Google и DARPA? (Рубрика #Robotics)

С интересом посмотрел историю про версию робота Atlas от Boston Dynamics и Hyundai, из которой видно, что Atlas перестает быть просто research-легендой и начинает превращаться в промышленный продукт. История этого робота вообще выросла из потребности в роботе-гуманоиде для аварий навроде аварии на Фукусима, а теперь Hyundai готовит его к реальной работе на своих заводах.

Основная мысль истории в том, что в робототехнике побеждает не тот, у кого самый вирусный деморолирк, а тот, кто умеет собрать полный контур. У нового робота Atlas этот контур выглядит так
- Boston Dynamics приносит механику, контроль и годы R&D
- Google DeepMind - новый слой embodied AI
- Hyundai - заводскую дисциплину, цепочку поставок, внутреннего первого заказчика и путь к масштабу
Без этого последнего звена даже очень красивый гуманоид легко остается просто дорогой лабораторной демонстрацией

Если говорить про основную техническую историю, то это актуаторы (исполнительные механизмы). Hyundai Mobis прямо пишет, что они шаренные ключевые компоненты с автомобильными управляющими системами, а сами актуаторы съедают больше 60% стоимости гуманоидов Atlas. И это показывает как Hyundai обеспечил прорыв в подготовке робота к проду: не через "изобрести все с нуля", а через умное переиспользование уже отлаженной индустриальной базы из соседней отрасли.

Если говорить про продуктовую часть, то Boston Dynamics сама признает, что предыдущая версия Atlas была слишком дорогой и сложной в ремонте, а прод-версию специально делали проще и удобнее в обслуживании (работали над сокращением TCO, total cost of ownership). Важно еще, что новый Atlas не просто "копирует человека", а умеет работать в мире, уже спроектированном под человека. Boston Dynamics пишет, что он рассчитан на те же workstations и то же оборудование, что и у людей - а это позволяет использовать его на текущих автоматизированных заводах по производству машин как drop-in замену человеческого труда на тех стадиях рабочего процесса, что раньше не были автоматизированы.

Возможности робота и железо под капотом выглядят серьезно, в итоге у роботоа есть: 56 степеней свободы, почти непрерывная кинематика, тактильные руки (tactile hands), 360° обзор, автономная замена батареи, работа в режимах autonomous / VR / tablet, интеграция с MES и WMS через Orbit. Но самое важное даже не в цифрах, а в том, что Atlas уже учат реальным производственным операциям и думают о раскатке новых навыков на весь флот роботов. Это уже больше похоже не на "одного умного робота", а на новую software-defined физическую платформу.

Но Boston Dynamics не разгоняет хайп, а говорит, что начинает с простых задач и только потом будет двигаться к более сложной сборке и плотной работе рядом с людьми. То есть революция в робототехнике, скорее всего, придет не одним большим скачком, а серией скучных, очень инженерных итераций (как обычно и бывает)

#Robotics #RnD #Engineering #AI #Engineering #Software #Hardware #Architecture
🔥13👍75
Я часто рассказываю про то, что надо знать базу для того, чтобы развиваться в software engineering. Но обычно сложно описать, а что же входит в это определение "база" и является джентельменским набором хорошего инженера. Но тут мой коллега, Женя Козлов, крутой инженер, написал серию статей про процессоры, модели памяти, многозадачность и конкурентность. В этой серии разбираются моменты, которые полезны инженерам, что делают высоконагруженные системы, которые плотно работают с данными. Собственно, сам Женя у нас лидит команду, что занимается Statist - это наша система продуктовой аналитики, которая давно заменила нам Amplitude и по всем характеристикам тянет на data intensive application. В общем, я очень рекомендую вам эту серию статей от Жени, если вам интересно понять как компьютер обрабатывает под капотом те программы, что вы пишите на своем любимом языке программирования.

Отдельно отмечу, что мы с Женей записывали эпизод подкаста Code of Leadership, из которого можно узнать про интересный путь Жени к его текущей роли внутри Т-Банка, а также что он делает у нас в компании.
🔥134👍4
Forwarded from Евгений Козлов пишет про IT (Eugene Kozlov)
Concurrency, Synchronization and Consistency.

🔹Основы. Железо
- Архитектура Фон-Неймана
- Узкое место архитектуры Фон-Неймана
- Когерентность кеша. Основы
- Контроллеры когерентности
- Протокол когерентности MSI
- Блокировки, атомарные операции
- Выводы по аппаратной части

🔹Модель памяти / Барьеры памяти
- Что такое модель памяти? Sequential Consistency.
- Барьеры памяти
- Модель памяти X86
- Модель памяти ARM
- Выводы по моделям памяти + материалы

🔹Прикладной уровень. Операционная система
- Spinlocks с примерами на stdatomic.h + pthread.h
- Race Condition + Mutex
- Mutex Internals. Fast Userspace Mutex
- Semaphores. Основы. Сферы применения.

- Read-Write Mutexes
- Масштабируемость RW Mutex
- Mutex vs RWMutex
- Bonus: Проблема False Sharing

- Приоритеты потоков на примере Linux

- Ключевое слово volatile в C
- Реентерабелные функции в C

🔹Вызовы конкурентного программирования
- Проблема обедающих философов. Взаимная блокировка (Deadlock)
- Priority Inversion или баг случившийся на Марсе
- Синхронизация не бесплатна. Иерархия накладных расходов

Golang
- Пишем собственный Mutex
- sync.Mutex Internals
🔥32👍75
Code of Leadership 2. Эпизод #1 - Оценка эффективности внедрения AI с Авениром Вороновым(Рубрика #AI)

Вышел первый выпуск второго сезона моего подкаста Code of Leadership. В этот раз в гостях был Авенир Воронов, директор по внедрению из компании veai.ru, что делает AI решения для корпоративной разработки. А говорили мы о теме, которая кажется мне одной из самых практичных в AI-native разработке: как не просто выдать инженерам AI-инструмент, а понять, что его внедрение действительно дало команде и бизнесу.

Если коротко, разговор получился вокруг одного ключевого вопроса: какой язык измерения вообще нужен для AI-внедрения. Мы обсудили, почему пилоты часто запускают энтузиасты без baseline и критериев успеха, как из телеметрии IDE и диалогов с copilot-инструментом можно собирать сценарии работы и оценивать время и деньги, зачем смотреть не только на adoption, но и на контрметрики качества, а также почему эмоциональный фон инженеров и типы их взаимодействия с AI тоже дают важные сигналы.

Отдельно получилось интересно поговорить про то, как меняется сама модель разработки. AI сдвигает работу выше по стеку абстракций: от написания строк к формулированию intent, ограничений, правил и тестов. А значит, меняются не только инструменты, но и роли, процессы и само понимание того, что считать успешным внедрением. Мне особенно отозвалась мысль, что успешное внедрение AI почти никогда не измеряется одной цифрой. Для одного заказчика важен ROI, для другого - спокойствие команды и качество работы, для третьего - скорость пути от идеи до релиза. Поэтому реальное использование и растущий adoption оказываются не менее важны, чем красивые цифры на дашборде.

В общем, это выпуск не про магический рост productivity, а про более взрослый разговор: как измерять AI-внедрение без маркетингового шума и не терять связь с реальной болью инженерной организации.

Выпуск доступен на разных площадках: Youtube, VK, Podster, Ya Music.

#AI #Engineering #Management #DevEx #Productivity #Leadership #Software
1🔥124👍21
CTO 2026: от главного по технологиям к архитектору AI-native компании (Рубрика #Leadership)

В 2026 году роль CTO меняется радикально: теперь он отвечает не только за технологии, но и за то, как компания думает, учится и поставляет ценность в эпоху AI. Когда код, аналитика и прототипы становятся дешевле благодаря AI, главным дефицитом становятся контекст, качество решений, доверие и управляемая скорость. В своей статье я разбираю эти изменения и рассказываю о том, какие компетенции нужны техническому лидеру, чтобы не просто внедрять AI-инструменты, а перестраивать под них всю организацию.

Ну и напоследок я размышляю о том, а куда CTO стоит вести компанию в 2026 году, чтобы AI стал не модным слоем поверх процессов, а реальным рычагом роста и конкурентного преимущества.

#AI #Engineering #Management #SystemDesign #Architecture #Processes #Software #Productivity
👍11🥱65🔥5🤔1
[1/2] Hands-On RAG for Production (Рубрика #AI)

С интересом прочел доступные главы этой книги, что находится в процессе написания. Основная идея авторов Ofer Mendelevitch и Forrest Bao была в том, чтобы рассказать про retrieval augmented generation как про инженерную систему и рассмотреть вопросы приема данных в платформу, прав доступа, latency ответов, автоматического оценивания, приватности и так далее. Это сильно отличает книгу от других, где RAG выглядит просто еще один паттерн поверх AI, но это и понятно, ведь авторы работают в Vectara, компании, что делает платформу для агентов, а также RAG as a service (поэтому и часть практических примеров в книге связана с этой платформой).

В общем, книга по задумке авторов попадает в самую болезненную точку рынка: разрыв между "демо работает" и «система переживает production, аудит, рост нагрузки и вопросы от security». Это и делает её важной не только для инженеров, но и для технических руководителей, не ради слова RAG, а ради инженерной дисциплины вокруг него (я примерно поэтому и взялся читать книгу). Если идти по доступным главам, то логика авторов прослеживается хорошо: сначала они собирают базу, а потом быстро уводят читателя из мира RAG на коленке в мир ограничений вокруг продакшена. Давайте посмотрим на главы пристальнее

1) "Introduction to Retrieval Augmented Generation (RAG)"
Это, по сути, фундамент: что RAG решает, где он реально лучше "голой" модели, и почему его так любят в enterprise-сценариях. Например, здесь автоы сравнивают RAG и fine-tuning моделей.
2) "Advanced RAG
"
В этой главе начинается интересное обсуждение того, что отличает базовый pipeline от реально полезной системы. То есть не просто dense retrieval, а более сильный retrieval stack, reranking, chunking, query rewriting, гибридные схемы и прочая инженерия качества.
3 и 4) "Deploying RAG to Production" и "The RAG Platform" - это центральная часть книги. Именно здесь RAG перестаёт быть проектом на поиграться и становится системной задачей со своим набором ограничений и требований: latency, privacy, explainability, prompt design, compliance, доступы к данным, архитектурные компромиссы, build-vs-buy. А четвертая глава "The RAG Platform" особенно хороша тем, что показывает, что зрелый RAG почти всегда превращается не в одну фичу, а в платформенный слой, который начинает обслуживать несколько продуктов и команд.

В посте-продолжении я поделюсь мнением про оставшиеся главы книги и расскажу для кого она будет полезна.

#AI #Engineering #Software #DistributedSystems #SystemDesign #Database #Search #Agents
🔥97👍4😁1
[2/2] Hands-On RAG for Production (Рубрика #AI)

Заканчивая обзор это крутой книги про RAG, что находится в процессе написания.

5) "Evaluating your RAG Application" - эта глава обязательна для прочтения тем, кто планирует докатить RAG на production. Авторы упоминают про метрики вроде hallucinations, response quality, latency и cost. И не только упоминают, но и рассказывают про способы измерения качества retrieval и генерации. По-факту, тут идет рассказ про стандартные метрики поиска (precision, recall, f1, метрики с учетом порядка элементов), а также про точность генерации (утилизация контекста, точность ответов, консистентность ответов, отсутствие галлюцинаций, точность цитат), а также предубеждения (по расе, полу и так далее). А также подходы к e2e оцениваниют при помощи фреймворков: Open-RAG-EVAL, RAGAs, DeepEval. Ну и напоследок как учитывать фидбек людей (условно пальцы вниз и вверх, которые вы видели в чатиках ChatGPT, Perplexity, ...)

6) "From RAG to AI Agents" - здесь речь идет про retrieval, который перестаёт быть конечным продуктом и становится частью более длинного workflow. То есть RAG - уже не только "найди и ответь", а "найди, проверь, спланируй, вызови инструмент, верни результат". Это очень верно для текущего времени, где агенты без качественного retrieval быстро превращаются в дорогую импровизацию.

7 и 8) "Multimodal RAG" и "Knowledge Enhanced RAG"
делают книгу ещё полезнее для реальных корпораций. Это важно для всех, кто работает с PDF, таблицами, диаграммами, изображениями, полуструктурированными документами и сложными knowledge domains, где одной embedding similarity уже мало.

P.S.
Если сравнить эту книгу с другими, о которых я рассказывал, то получается такая картина

- "AI Engineering" - это широкая карта всей дисциплины и ответ на вопрос, а что вообще такое современная AI-разработка и из каких слоёв она состоит. На этом фоне "Hands-On RAG for Production" выглядит уже не как обзор всей системы, а как очень подробный разбор ее части - production RAG.
- "Prompt Engineering for LLMs" учит понимать архитектуру LLM, строить prompt strategy, правильно собирать context elements и использовать техники вроде few-shot, chain-of-thought и RAG. Поэтому "Prompt Engineering for LLMs" - это книга про интерфейс между человеком, контекстом и моделью, а "Hands-On RAG for Production" - про retrieval/platform layer, который этот контекст делает надёжным в проде.

#AI #Engineering #Software #DistributedSystems #SystemDesign #Database #Search #Agents
10👍6🔥1
Управление 2026 - Конференция от Стратоплана (Рубрика #Management)

В этом году мы наблюдаем как меняется все вокруг под воздействием AI, причем сама область разработки трансформируется быстрее всего. Меняются ожидания от линейных инженеров, но не только - и руководителям предстоит измениться. И логика тут простая: AI не заменит руководителей сам по себе - руководители, которые перестроились под новые условия, заменят тех, кто не захотел или не справился с этим.

И для тех, кто готов к изменениям мы решили провести конфу Управление’26 - она поможет тем, кто хочет свериться с реальностью и понять, какие компетенции и инструменты нужны, чтобы остаться востребованным сегодня и в будущем. Я на этой конфе расскажу про то, как меняется роль CTO, что ему стоит попробовать руками и как выстроить стратегию развития технологий компании, включая конечно и AI.

Регистрация на конфу доступна здесь, причем участие бесплатное при подписке на каналы спикеров (или если нет желания подписываться, то за символическую плату).
На конфе выступят: ex-CТО Bookmate и Pure, фаундер NEWHR, AI Program Manager из G42, Venture Principal, ex-PM в IBM и ex-CIO Volvo, и ex-Associate Managing Consultant в MasterCard + сооснователи Школы

Конференция пройдет с 20 по 23 апреля, онлайн (но будут доступны и записи).

#AI #Engineering #Management #SystemDesign #Architecture #Processes #Software #Productivity
👍1813🔥8🫡1
[1/2] SWE-PRBench: Benchmarking AI Code Review Quality Against Pull Request Feedback (Рубрика #Whitepaper)

Когда разбирался с тем, как оценивать качество агентов внутри SDLC наткнулся на интересную и свежую работу от Deepak Kumar, независимого исследователя. В этом исследовании простая : SWE-Bench-подобные бенчмарки меряют, может ли модель написать правильный патч, а не может ли она оценить чужой PR как reviewer. И в предложенном подходе автор делает именно второе: берёт реальные merged PR и реальные комментарии людей в ревью как ground truth, не синтезирует комментарии и не сводит задачу к similarity текста. Плюс авторы фиксируют три режима контекста (по нарастающей), чтобы проверить эффект от его расширения
- config_A (diff + summary)
- config_B (добавлен file context)
- config_C (ещё и test/context layers)
Этот подход позволяет измерить насколько разные модели хороши в поиске issues в сравнении с находками людей.

Если глубже погружаться в методологию, то она такова
1) Сначала они отбирают репозитории по RQS (Repository Quality Score): review culture, свежесть PR, качество тестов/CI, объём PR activity и contamination proxy. Репозитории ниже 60/100 отбрасываются. Самый сильный сигнал - именно культура ревью: доля содержательных комментариев от людей в недавних merged PR.
2) Потом PR проходят 10-шаговую фильтрацию: только смердженные PR, минимум два содержательных человеческих комментария, есть изменения помимо тестов, не только изменения документации, не просто автоматический бамп зависимостей, не только AI ревью, diff можно распарсить, базовый commit доступен, репозиторий еще публичный, и проходит RVS-порог (что упоминался в первом пункте). Из примерно 3,000 raw PR остаётся 700 кандидатов, после RVS обрезается до 350 PR из 65 репозиториев. Ground truth берётся из реальных комментариев к ревью через GitHub API; комментарии не генерируются и не правятся вручную. Авторы отдельно фильтруют AI/bot комментарии и исключают PR, где AI-комментариев больше 30%.
3) Важная часть методологии построена вокруг таксономии сложности
- Type1 - проблема видна прямо в diff
- Type2 - нужно понимать окружающий код в том же файле и который не менялся
- Type3 - нужно размышление относительно кросс-файловых зависимостей
Этот ход превращает “качество code review” из одной мутной метрики в три разных когнитивных режима
4) Оценивание тоже сделано интересно. Агент должен вернуть 4–6 issues в JSON с severity, а judge-модель классифицирует каждый comment как CONFIRMED, PLAUSIBLE или FABRICATED. Причем PLAUSIBLE - это хороший подход, так как авторы признают, что ревью людьми не исчерпывающее, поэтому валидный новый комментарий не считается автоматом галлюцинацией. Дальше идёт маппинг, чтобы модель не получила двойные очки за разбиение одной идеи на пять комментариев, а итоговый score смешивает полноту, точность, semantic alignment, actionability и efficiency, штрафуя галлюцинации и избыточность.

В итоге, были получены интересные результаты:
1) На их 100-PR stratified sample ни одна модель не ловит больше 31% human-flagged issues; средний detection rate по всем 8 моделям на config_A примерно 26%. Топ-4 модели показывают примерно одинаковый агрегированный score.
2) По профилю моделей видим, что нет лучшего ревьювера и у нас обычный precision/recall trade-off. В цифрах DeepSeek V3 даёт лучший raw detection на config_A (DR=0.312), а GPT-4o даёт лучший hallucination profile (FPR=0.193). У Llama 3.3 70B худший FPR — 0.417.
3) Все 8 моделей деградируют при переходе от config_A к config_C. Причём config_A и config_C отличаются всего на 500 токенов (2,000 vs 2,500) - кажется, что проблема в том, как контекст подаётся, а не только в объёме.
4) Все ухудшается на переходе от config_A к config_B: у Sonnet score по Type2 падает с 0.22 до 0.10 при переходе A→B; у DeepSeek — с 0.20 до 0.10. То есть модели ломаются не там, где нужен весь репозиторий, а уже на шаге добавления окружающего контекста из измененного файла.

В продолжении обсудим что все это значит на практике.

#AI #Engineering #Software #SystemDesign #Agents
6👍4🔥1🤔1
[2/2] SWE-PRBench: Benchmarking AI Code Review Quality Against Pull Request Feedback (Рубрика #Whitepaper)

Продолжая рассказ, про whitepaper мы поговорим какие практические выводы можно сделать из предложенного подхода.

1️⃣ Больше контекста, не всегда выше качество. В review-задаче компактный diff + summary оказался лучше, чем более “богатый” flat prompt. Я бы читал это не как “контекст бесполезен”, а как “наивная плоская упаковка контекста вредна”. Это важная разница: авторы сами пишут, что retrieval-based или token-level relevance strategies вроде changed-vs-unchanged markers могут дать другой результат, и прямо позиционируют config_B как uncurated baseline, относительно которого и надо мерить retrieval-approaches.

Отсюда мой практический вывод о том, что агент-ревьювер должен быть многошаговым, а не одним гигантским промптом. Нормальный pipeline может выгялдеть так:
- diff-only candidate generation;
- targeted retrieval только под подозрительные места;
- verifier/critic, который режет fabricated comments;
- dedup + severity ranking перед публикацией в PR.
Кажется, что это следующий шаг, который основан на результатах деградации качества по мере добавления контекста.

2️⃣ Не надо выбирать модель только по обобщенному скору. В этом исследовании top-4 модели почти не различимы статистически, зато у них разные результаты по части галлюцинаций и стоимости. Для бота, который пишет комменты прямо в PR, низкий FPR (false positive rate) обычно важнее, чем максимальный полнота; для ревьювера, что работает в shadow-mode можно взять более recall-heavy и дешёвый вариант, но обязательно с этапом верификации.

Если говорить про масштабирование подхода, то кажется сам подход отлично подходит для создания своих кастомных бенчей в компании.
- Data pipeline переносится в компанию почти напрямую: merged PR, diff, base/head SHA, changed files, human comments, frozen context fixtures, separate judge/agent pipeline
- У авторов уже опубликованы и dataset artifacts, и harness, где layout очень близок к тому, что и нужно внутри компании
- И в крупных компаниях это масштабируется даже лучше, чем в open source: внутри компании у вас обычно есть больше сигналов - ownership, CI артефакты, rollback history, incident links, review roles, labels вроде security/migration/data-contract.
То есть сам подход authors я бы не просто переносил, а усиливал внутренними metadata. Но production-часть paper переносить буквально я бы не стал: их собственные результаты показывают, что flat full-context review не работает, а limitations section прямо оставляет дверь открытой для более умных relevance encodings и retrieval.

А вот для переноса на всю индустрию пока есть препятствия
- Датасет Python-dominant (69.1%), performance PR почти нет (8), security PR вообще один, paper baseline посчитан на 100 PR из полного корпуса 350, а не на всём датасете
- Нет человеческого baseline в этом режиме, а judge-family bias authors сами не исключают.

#AI #Engineering #Software #SystemDesign #Agents
👍53🔥1
От AI-native разработки к AI-native платформе (Рубрика #AI4SDLC)

Написал статью про то, что следующее узкое место AI-native разработки лежит уже не в слое написания кода, а в самой платформе разработки. Как только агенты входят в основной рабочий поток, GitHub перестает быть просто местом хранения кода и запуска CI, а становится слоем управления для людей и агентов. Тогда ревью, проверки безопасности, политики и телеметрия перестают быть внешней обвязкой и становятся частью вычислительного пути.

На примере GitHub разбираю, как агентные сценарии создают новый класс платформенной нагрузки, почему защитные механизмы сами становятся частью основной нагрузки и что это означает для крупных инженерных организаций. Если совсем коротко, то AI ускоряет не только кодинг, но и рост давления на CI, ревью, проверки и путь до слияния. А значит, следующая зрелая форма AI-native - это уже не просто агент в IDE, а AI-native платформенная инженерия.

#AI #Architecture #Software #Engineering #Agents #Processes #Productivity
7👍7🤔5👎2🔥2
AI и ИБ (пятничное)

Остановись мгновенье ты прекрасно,
Сказал ИБшник и поставил всё на холд.
Ведь только так ты будешь безопасна,
Моя платформа, не попавшая на прод.


P.S.
Навеяно плотным общением на тему прикладных вопросов информационной безопасности в сценариях разработки программного обеспечения.

#Humor #AI #Security
😁284🔥4👎3😢2
Unravel Two (Рубрика #Games)

Недавно вместе прошли игру "Unravel Two" с Кириллом, моим сыном 5 лет, и это оказался очень хороший пример игры, в которую действительно можно играть вместе с маленьким ребенком, а не просто формально включить кооператив:)

Снаружи игрушка выглядит как просто красивый платформер про двух Yarny - маленьких существ из ниток. Но ее главная идея как раз в связке двух персонажей. Они соединены одной нитью, и на этом построена почти вся игра: нужно цепляться за окружение, раскачиваться, подтягивать друг друга, делать мостики из нити, вместе проходить препятствия и решать простые головоломки. За счет этого кооператив тут не прикручен сверху, а встроен в саму механику. Ты буквально двигаешься вперед только потому, что действуешь не один.

Мне отдельно понравилось, как здесь устроен нарратив. Игра почти ничего не объясняет словами, но при этом довольно хорошо передает ощущение связи, поддержки и совместного пути. Это история не про сюжетные повороты и длинные диалоги, а про состояние: рядом кто-то есть, вы держитесь вместе, и поэтому можете пройти дальше. Для игры с ребенком это особенно хорошо работает, потому что не нужно долго объяснять контекст - он считывается через действие, свет, движение и сами ситуации.

Еще одна сильная сторона - окружение. Unravel Two очень здорово играет на контрасте масштаба. Ты видишь лес, воду, траву, ветки, старые дома, какие-то бытовые пространства, но все это показано с точки зрения очень маленького существа. Из-за этого обычный мир становится одновременно уютным и немного опасным. Игра красивая, теплая по цветам и атмосфере, но не приторная: в ней есть и чувство приключения, и легкая тревога, и ощущение большого мира вокруг.

Ну и главное - почему она правда подходит для кооператива с детьми. В ней не самый высокий порог входа, она не требует молниеносной реакции каждую секунду и не строится на постоянном наказании за ошибки. Более опытный игрок может подстраховать, взять на себя более сложные куски, а ребенок все равно остается полноценным участником процесса, а не зрителем с подключенным геймпадом. По-факту, Кирилл в особо сложных местах "вплетался" в моего Yarni и я мог вместе с ним на своих плечах проходить эти эпизоды. В общем, нам с Кириллом она очень понравилась, но особо сложные дополнительные уровни мы проходить не стали:)

#Games #ForKids #ForParents
🔥33👍1311
Управление 2026 - Конференция от Стратоплана (Рубрика #Management)

В этом году мы наблюдаем как меняется все вокруг под воздействием AI, причем сама область разработки трансформируется быстрее всего. Меняются ожидания от линейных инженеров, но не только - и руководителям предстоит измениться. И логика тут простая: AI не заменит руководителей сам по себе - руководители, которые перестроились под новые условия, заменят тех, кто не захотел или не справился с этим.

И для тех, кто готов к изменениям мы решили провести конфу Управление’26 - она поможет тем, кто хочет свериться с реальностью и понять, какие компетенции и инструменты нужны, чтобы остаться востребованным сегодня и в будущем. Я на этой конфе расскажу про то, как меняется роль CTO, что ему стоит попробовать руками и как выстроить стратегию развития технологий компании, включая конечно и AI. По-факту, основная канва моего доклада будет опираться на серию моих статей
- От классического PDLC к AI-native разработке
- От AI-native разработки к AI-native организации (с примерами из опыта бигтехов)
- От классического управления задачами в Jira к AI-native task management (на примере Atlassian и Linear)
- Как бигтехи планируют внедрять AI-native разработку у себя в 2026 году
- От AI-native разработки к AI-native платформе
- От AI-native организации к AI-native лидерству: роль CTO в 2026 году

Сама конфа пройдет с 20 по 23 апреля, а мое выступление будет в среду. Регистрация доступна здесь, причем участие бесплатное при подписке на каналы спикеров (или если нет желания подписываться, то за символическую плату). Для пропустивших будут доступны и записи выступлений.

#AI #Engineering #Management #SystemDesign #Architecture #Processes #Software #Productivity
🔥1713👍7
AI Conf - AI в разработке: эффект, риски, реальность (Рубрика #AI)

Был вчера на конференции Олега Бунина AI Conf, где прошла дискуссия про AI в разработке, куда Олег пригласил большое количество технических топов. Тема обсуждения была заявлена интересной, поэтому я с удовольствием приехал послушать, повидать знакомых, а также пообщаться на эту тему в кулуарах. Как по мне дискуссия изначально крутилась вокруг "использовать AI в разработке" vs "не использовать AI в разработке", а в наше время это уже не вариант - индустрия уже ответила на этот вопрос и AI уже здесь. В итоге ближе ко второй половине дискуссии она сдвинулась в тему, а как именно эффективно использовать AI, что для этого нужно, а также какие сценарии работают и у кого. Забавно, что я был слушателем, но в какой-то момент у меня оказался в руках микрофон и мне тоже удалось поделиться своими мыслями, которые близки к тем моим статьям, что я упоминал в прошлом посте.

P.S.
Спасибо Олегу за приглашение на это мероприятие и в эту дискуссию, а также за то, что собрал такую интересную компанию.
Ну и спасибо всем ребятам, с которыми удалось пересечься на конфе и пообщаться на эти захватывающие темы - это отлично помогает понять кто и как подходит к решению похожих задач в разных компаниях.

#AI #Engineering #Management #SystemDesign #Architecture #Processes #Software #Productivity
19👍7🔥3👎1
CFP (Call For Papers) на JVM Day (Рубрика #Conference)

У нас есть традиция раз в год ... ходить в баню проводить конференцию JVM Day. На прошлой я даже выступал и мне дали джемпер с группой крови на рукаве надписью "Экспертно заявляю".

Если вы тоже хотите экспертно заявить о чем-то на сообщество бекендеров, то подавайте свою заявку на нашу конфу, что пройдет 29 августа в Москве.

Мы ждем заявки с интересными кейсами для стандартных 40 минутных докладов или дискуссий, а также у нас есть демозоны, где вы можете представить свой продукт и у вашей команды будет пространство с экранами и стойками на весь день: можно показывать технологию вживую, общаться с инженерами, собирать обратную связь и находить первых пользователей.

В общем, не стесняйтесь и оставляйте свои заявки.

#Conference #Software #Engineering
4👏4🔥3😁3
Выжать больше из локальных LLM (Рубрика #AI)

Я редко пишу про статьи на Habr, но тут не смог удержаться - уж очень понравилась мне большая и практичная статья про запуск локальных LLM. Эта тема мне интересна, но я особо не экспериментировал раньше, ограничиваясь запуском стандартных моделек в своей LMStudio на толстом AMD Ryzen AI Max+ 395. А эта статья позволяет выжать больше скорости, качества и контекста из вашего железа, например автор объясняет на пальцах почему ollama удобна, но медленнее llama.cpp, а также что такое квантование и какое оно бывает и что дает. Если чуть подробнее рассказать про основные темы, то они такие

1️⃣ Разница между Dense и MoE-моделями

У Dense-модели все параметры активны всегда, поэтому она часто стабильнее и "умнее", но медленнее. У MoE активна только часть экспертов, поэтому такая модель может быть быстрее, но требует более аккуратного запуска. И вот здесь начинается самое интересное: если просто выгрузить часть слоёв на GPU, как это часто делает Ollama, видеокарта может быть забита полностью, но работать неэффективно. А llama.cpp умеет умнее раскладывать тензоры и включать режимы вроде cmoe/ncmoe, что на MoE-моделях даёт очень заметный выигрыш.

2️⃣ Квантование - что это такое и что дает

Честно говоря, эта часть мне показалась супер-полезной, так как автор объяснил, что стандартный выбор "Q4_K_M по умолчанию" уже не всегда лучший вариант. Современные динамические кванты вроде UD-Q4_K_XL могут давать больше качества при близком размере, а иногда Q4_K_M оказывается примерно на уровне более лёгкого UD-Q3_K_XL. И это важный практический вывод: при локальном запуске не стоит слепо брать дефолтный квант из Ollama или LM Studio. Лучше посмотреть, есть ли версия от Unsloth, Ubergarm или другие более свежие варианты.

3️⃣ Использование локальных моделей для кодинга
Автор показывает, что даже сильное квантование UD-Q2_K_XL может быть достаточно рабочим для генерации и доработки кода: модель собирала прототипы игр, исправляла баги и работала через агента. Это не значит, что Q2 теперь всегда лучший выбор, но значит, что старое правило "ниже Q4 не смотреть" уже не всегда верно.

Плюс в статье много практических советов, что интересно проверить на практике
- Попробовать llama.cpp вместо Ollama, особенно для MoE-моделей;
- Искать не только Q4_K_M, но и динамические кванты UD-Q4_K_XL / UD-Q3_K_XL / IQ-варианты;
- Помнить, что меньший квант не всегда быстрее, потому что i-кванты могут требовать больше вычислений на CPU;
- Использовать -fit, -cmoe, -ncmoe и не пытаться руками угадывать оптимальную раскладку;
- Увеличивать -ub и -b, если важна скорость обработки большого контекста;
- Подключать маленькую draft-модель для speculative decoding, если задача похожа на кодинг или перевод;
- Освобождать VRAM: браузер, Windows и лишние приложения легко съедают 2–3 ГБ, которые могли бы уйти под модель или контекст;
- Смотреть на дату выхода модели, а не на старые списки "лучших LLM", где до сих пор всплывают модели, давно уступившие новым поколениям.

Эффект от этих настроек может быть очень ощутимым. В статье llama.cpp на MoE-модели показывал скорость примерно в 3 раза выше Ollama на том же железе. Настройка обработки контекста давала кратный рост PP. Спекулятивное декодирование ускоряло Dense-модель примерно в 1.5 раза на коде и переводе. А правильный выбор кванта позволял либо получить больше качества в том же размере, либо уместить модель в доступную VRAM.

В общем, это хорошая статья для инженеров, кто уже пробовал локальные LLM и столкнулся с ощущением, что "модель вроде неплохая, но работает медленно".

P.S.
Эхх, я бы хотел поковыряться со своей железкой и испробовать эти советы на майских праздниках, но улетаю с женой и детишками в Лондон в воскресенье, поэтому отложу это уже на вторые майские праздники. А с подписчиками канала буду следующие 2 недели делится туристическими фотками и своими размышлениями про AI:)

#AI #LLM #LocalLLM #Engineering #Performance #Agents #llamacpp
🔥14👍138😁1
The Great GPU Shortage – Rental Capacity – Launching our H100 1 Year Rental Price Index (Рубрика #AI)

Интересная статья от SemiAnalysis про агрессивный рынок аренды GPU, который вошел в клинч и цены взлетели вверх из-за роста спроса. Стоимость годового контракта на H100 выросла примерно на 40% - с $1.70 за GPU-час в октябре 2025 до $2.35 к марту 2026. On-demand capacity по сути выбрана по всем типам GPU, а Blackwell-кластеры, которые выходят в строй в середине 2026 года, во многих случаях уже заранее заняты. Даже найти кластер на 64 Hopper GPU стало нетривиально.

Авторы прямо связывает новую волну давления на рынок с резким ростом спроса на фоне agentic нагрузок поверх моделей. То есть узкое место теперь формируется не только гонкой лабораторий в тренировке новых моделей, а продакшен-инференсом, где модель перестаёт быть "чатом" и становится исполнителем рабочих процессов. В классическом chat UX экономика была относительно простой: один пользовательский запрос, один inference-pass, один ответ. В агентном мире одна задача раскладывается в дерево вызовов: оркестратор строит план, порождает субагентов, те параллельно ищут источники, читают код, ходят в инструменты, возвращают промежуточные результаты, после чего отдельный контур делает синтез, критику и верификацию. Например, cнаружи задача может выглядеть как "разбери инцидент" или "подготовь PR", а под капотом это уже рой субагентов.

В итоге, спрос на рынке растет уже не только от числа пользователей и не только от числа компаний, а скорее от того сколько задач делегируются агентам. Один и тот же разработчик, аналитик или исследователь теперь может запускать не один запрос к модели, а десятки координированных проходов - с длинным контекстом, ретраями, проверками и параллельными ветками. У мульти-агентных нагрузок есть неприятная для инфраструктуры особенность: они увеличивают не только суммарное потребление токенов, но и пиковую конкурентность, а это уже прямое давление на флот GPU.

Интересно, что этот спрос неравномерен. Авторы пишут, что часть inference-нагрузок, особенно большие MoE-сценарии, лучше работает на свежих системах вроде GB300 NVL72, тогда как тренировки и часть нагрузок, где важна стоимость к производительности, продолжают отлично жить на H100. Иными словами, новый агентный слой не просто "съедает Blackwell" - он одновременно поддерживает спрос и на Hopper, продлевая экономическую жизнь уже поставленных GPU. Поэтому у провайдеров сейчас не ценовая война за загрузку, а рынок продавца с длинными контрактами, предоплатой и выбором, кому вообще отдавать capacity.

Отсюда можно почерпнуть несколько выводов:
1️⃣ Планирование мощностей по модели "сколько у нас чатов в день" больше не работает - считать нужно fan-out на подагентов, глубину циклов верификации и уровень параллелизма (максимальный для задачи)
2️⃣ Юнит экономику надо считать не по запросам, а по выполненным задачам: агент может быть дорогим в токенах, но дешёвым относительно стоимости человека или цены задержки бизнес-процесса
3️⃣ Если ROI от AI-инструментов действительно остаётся кратно выше их стоимости, как пишет SemiAnalysis, то спрос на вычисления ещё долго будет слабо чувствителен к цене. А значит, рост GPU-потребления - это не временный всплеск хайпа, а новая реальность.

TLDR;
Раньше GPU в основном потребляли модели, а теперь GPU потребляют бизнес-процессы, разложенные на рой агентных подзадач. И именно мульти-агентные нагрузки могут оказаться главным скрытым драйвером нового дефицита вычислений.

#AI #Engineering #Management #SystemDesign #Architecture #Processes #Software #Productivity #Agents #Economics
256🔥5💯5😁1🤨1
The How to be British Collection (Рубрика #Humor)

Из прошлой поездки в Лондон я привез пару шуточных книг о том, как быть британцем. Я их полистал по приезду, но прочитал полностью только сейчас, когда пришла пора лететь в Лондон всей семьей. Могу отметить, забавные иллюстрации и меткие описания, которые хорошо описывают то, что я видел/чувствовал в первой поездке.

Уже завтра смогу сравнить юмор авторов этого сборника и реальность Лондона:)

#Travel #Humor
😁179👍2