Moving Logic Out of Pods: Extending the Argo Workflows Controller
https://hackernoon.com/moving-logic-out-of-pods-extending-the-argo-workflows-controller
In this article, I'll show how the Argo Workflows Executor Plugin lets you extend the Argo Workflows controller without maintaining your own fork—simply by implementing a small HTTP server in any language. As a bonus, this same mechanism reduces the number of extra pods in your DAGs and lightens the load on the Kubernetes scheduler. If you're new to Argo, I'll briefly cover the architecture and where plugins fit in. We'll finish with practical examples and key configuration details.
https://hackernoon.com/moving-logic-out-of-pods-extending-the-argo-workflows-controller
k8squest
https://github.com/Manoj-engineer/k8squest
K8sQuest is a local, game-based Kubernetes training platform with an interactive GUI-like terminal interface. Each mission breaks something in Kubernetes. Your job is to fix it.
https://github.com/Manoj-engineer/k8squest
3
Media is too big
VIEW IN TELEGRAM
Не “что сломалось”, а “почему сломалось”
С этого начинается observability — и об этом новый выпуск «404 секунд» — шоу о трендах в IT.
Сам формат — короткий: ровно 404 секунды. Но внутри — плотный разбор тем про observability: почему одних данных недостаточно, откуда берётся alert fatigue и как перестать тонуть в алертах, которые ничего не объясняют.
Плюс — про инструменты, которые помогают собрать систему воедино. Например, Monium: когда вся телеметрия сходится в одном месте и даёт не просто сигналы, а понимание, где и почему произошел сбой
В выпуске: от устаревшего мониторинга к полноценной наблюдаемости.
- Почему метрики, логи и трейсы сами по себе не спасают.
- Как уменьшить шум алертов и начать видеть систему целиком.
- И как AI постепенно становится частью процессов мониторинга.
Если инфраструктура — это ваша зона ответственности, пропускать не стоит. Посмотреть можно уже на YouTube, VK Видео и в Яндекс Музыке.
С этого начинается observability — и об этом новый выпуск «404 секунд» — шоу о трендах в IT.
Сам формат — короткий: ровно 404 секунды. Но внутри — плотный разбор тем про observability: почему одних данных недостаточно, откуда берётся alert fatigue и как перестать тонуть в алертах, которые ничего не объясняют.
Плюс — про инструменты, которые помогают собрать систему воедино. Например, Monium: когда вся телеметрия сходится в одном месте и даёт не просто сигналы, а понимание, где и почему произошел сбой
В выпуске: от устаревшего мониторинга к полноценной наблюдаемости.
- Почему метрики, логи и трейсы сами по себе не спасают.
- Как уменьшить шум алертов и начать видеть систему целиком.
- И как AI постепенно становится частью процессов мониторинга.
Если инфраструктура — это ваша зона ответственности, пропускать не стоит. Посмотреть можно уже на YouTube, VK Видео и в Яндекс Музыке.
kimspect
https://github.com/koithos/kimspect
kimspect is a kubernetes container image inspection tool that provides comprehensive visibility into container images running inside your cluster. kimspect can get image information by pod, namespace, and node. Built for performance and reliability, kimspect enables container image insights with a simple, intuitive command-line interface.
https://github.com/koithos/kimspect
kaos
https://github.com/axsaucedo/kaos
KAOS is a Kubernetes-native framework for deploying and orchestrating AI agents with tool access, multi-agent coordination, and seamless LLM integration.
https://github.com/axsaucedo/kaos
Как работает облачный балансировщик нагрузки
В новом выпуске реалити «Создавая облако» разберем архитектуру Network Load Balancer (сетевого балансировщика) — от входящего пакета до ответа от бэкенда.
О чем будем говорить:
- архитектура балансировщика и типы NLB
- путь трафика в MWS Overlay: hypervisor → DPL → VPP
- конфигурация балансировщика: Maglev, NAT, health-checks
- маршрутизация через внешний и внутренний LB
Спикер: Юрий Никанович, сеньор-разработчик MWS Cloud Platform
Получите подарок за лучший вопрос в чате.
Если работаете с облаками, инфраструктурой или сетями — этот эфир точно для вас.
Зарегистрироваться
В новом выпуске реалити «Создавая облако» разберем архитектуру Network Load Balancer (сетевого балансировщика) — от входящего пакета до ответа от бэкенда.
О чем будем говорить:
- архитектура балансировщика и типы NLB
- путь трафика в MWS Overlay: hypervisor → DPL → VPP
- конфигурация балансировщика: Maglev, NAT, health-checks
- маршрутизация через внешний и внутренний LB
Спикер: Юрий Никанович, сеньор-разработчик MWS Cloud Platform
Получите подарок за лучший вопрос в чате.
Если работаете с облаками, инфраструктурой или сетями — этот эфир точно для вас.
Зарегистрироваться
flux9s
https://github.com/dgunzy/flux9s
A K9s-inspired terminal UI for monitoring Flux GitOps resources in real-time.
https://github.com/dgunzy/flux9s
nix-csi
https://github.com/lillecarl/nix-csi
Mount /nix into Kubernetes pods using the CSI Ephemeral Volume feature. Volumes share lifetime with Pods and are embedded into the Podspec.
https://github.com/lillecarl/nix-csi
cartography
https://github.com/cartography-cncf/cartography
Cartography is a Python tool that maps infrastructure assets and their relationships into a Neo4j-backed graph view.
https://github.com/cartography-cncf/cartography
Stairway to GitOps: Scaling Flux at Morgan Stanley
https://fluxcd.io/blog/2026/03/stairway-to-gitops-morgan-stanley
Morgan Stanley explains how it scaled Flux across 500+ clusters over five years, including security, performance, and observability lessons.
https://fluxcd.io/blog/2026/03/stairway-to-gitops-morgan-stanley
The Invisible Rewrite: Modernizing the Kubernetes Image Promoter
https://kubernetes.io/blog/2026/03/17/image-promoter-rewrite
Every container image you pull from registry.k8s.io got there through kpromo, the Kubernetes image promoter. It copies images from staging registries to production, signs them with cosign, replicates signatures across more than 20 regional mirrors, and generates SLSA provenance attestations. If this tool breaks, no Kubernetes release ships. Over the past few weeks, we rewrote its core from scratch, deleted 20% of the codebase, made it dramatically faster, and nobody noticed. That was the whole point.
https://kubernetes.io/blog/2026/03/17/image-promoter-rewrite
Securing Production Debugging in Kubernetes
https://kubernetes.io/blog/2026/03/18/securing-production-debugging-in-kubernetes
This covers safer Kubernetes debugging with least-privilege RBAC, short-lived identity-bound credentials, and audited SSH-style access paths.
https://kubernetes.io/blog/2026/03/18/securing-production-debugging-in-kubernetes
Running Agents on Kubernetes with Agent Sandbox
https://kubernetes.io/blog/2026/03/20/running-agents-on-kubernetes-with-agent-sandbox
Agent Sandbox adds a declarative Kubernetes API for isolated, stateful AI agents with strong execution boundaries and stable network identities.
https://kubernetes.io/blog/2026/03/20/running-agents-on-kubernetes-with-agent-sandbox
23 апреля в 18:30 (мск) пройдёт офлайн-митап MWS Cloud Platform «Под капотом: инфраструктура». Также будет онлайн-трансляция. В программе доклады инженеров, которые ежедневно решают нетривиальные задачи при работе над инфраструктурными сервисами облака.
Вы сможете:
— узнать, с какими сложными архитектурными задачами сталкивались, как выбирали технологии и почему принимали те или иные решения
— подискутировать о разных подходах к решению схожих задач, задать вопросы, поделиться своим опытом
— понять, как лучше и эффективнее использовать облачные технологии для решения ваших рабочих задач
После основной части — нетворкинг и угощения. Регистрируйтесь на митап! Это возможность обсудить нюансы, которые всплывают только в продакшене, и будут полезны на практике.
🗓23 апреля, начало в 18:30
📍Москва, Дом Культур, ул. Сретенка, 25
Вход бесплатный, но требуется регистрация и её подтверждение — количество мест ограничено.
Зарегистрироваться
Вы сможете:
— узнать, с какими сложными архитектурными задачами сталкивались, как выбирали технологии и почему принимали те или иные решения
— подискутировать о разных подходах к решению схожих задач, задать вопросы, поделиться своим опытом
— понять, как лучше и эффективнее использовать облачные технологии для решения ваших рабочих задач
После основной части — нетворкинг и угощения. Регистрируйтесь на митап! Это возможность обсудить нюансы, которые всплывают только в продакшене, и будут полезны на практике.
🗓23 апреля, начало в 18:30
📍Москва, Дом Культур, ул. Сретенка, 25
Вход бесплатный, но требуется регистрация и её подтверждение — количество мест ограничено.
Зарегистрироваться
How Mastodon Runs OpenTelemetry Collectors in Production
https://opentelemetry.io/blog/2026/devex-mastodon
At the beginning of 2025, the OpenTelemetry Developer Experience SIG published the results of its first community survey. One of the strongest themes was clear: teams want more real-world examples of how the OpenTelemetry SDKs and the OpenTelemetry Collector are actually used in production.
To help close that gap, the SIG began collecting stories directly from end users—across industries, architectures, and company sizes. This post kicks off a new series focused specifically on organizations’ real world stories, starting with a small but uniquely challenging case.
This first story features Mastodon, a non-profit organization operating at global scale with a remarkably small team.
https://opentelemetry.io/blog/2026/devex-mastodon
Practical Considerations for AI Incident Reviews
https://fgj.codes/posts/ai-incident-reviews
The post argues AI-written incident reviews fail without rich cross-system data and human engagement because incident reviews are socio-technical learning work, not just document generation.
https://fgj.codes/posts/ai-incident-reviews
Вебинар: Механизмы защиты от переполнения диска в Databases
Что делать, если диск переполнен? Экстренно очистить кэш пакетного менеджера или удалить старые логи, но важно другое. А как вообще не допускать таких ситуаций? Как построить систему хранения данных, чтобы не переплачивать за автомасштабирование, но обезопасить себя от простоев? Приходите на наш вебинар, чтобы узнать узнать больше про работу с дисками и поучаствовать в обсуждении актуальных кейсов.
16 апреля, 16:00 (мск)
О чем будем говорить
- Зачем нужны WAL, и что будет если их удалить
- Какие существуют неочевидные причины переполнения дисков, как это влияет на доступность БД
- Сколько стоят последствия даунтаймов. Какие есть инструменты, чтобы все исправить
- Чек-лист инструментов, чтобы избежать переполнения WAL-диска: мониторинг, алертинг и профилирование нагрузки
Кому будет полезен вебинар
- DevOps/SRE-инженерам
- DBA и инженерам сопровождения БД
- архитекторам облачных решений
- техническим лидам, отвечающим за стабильность сервисов
Зарегистрироваться
Что делать, если диск переполнен? Экстренно очистить кэш пакетного менеджера или удалить старые логи, но важно другое. А как вообще не допускать таких ситуаций? Как построить систему хранения данных, чтобы не переплачивать за автомасштабирование, но обезопасить себя от простоев? Приходите на наш вебинар, чтобы узнать узнать больше про работу с дисками и поучаствовать в обсуждении актуальных кейсов.
16 апреля, 16:00 (мск)
О чем будем говорить
- Зачем нужны WAL, и что будет если их удалить
- Какие существуют неочевидные причины переполнения дисков, как это влияет на доступность БД
- Сколько стоят последствия даунтаймов. Какие есть инструменты, чтобы все исправить
- Чек-лист инструментов, чтобы избежать переполнения WAL-диска: мониторинг, алертинг и профилирование нагрузки
Кому будет полезен вебинар
- DevOps/SRE-инженерам
- DBA и инженерам сопровождения БД
- архитекторам облачных решений
- техническим лидам, отвечающим за стабильность сервисов
Зарегистрироваться
10 Real-World Status Page Examples: And What You Can Learn From Them
https://uptimerobot.com/blog/10-real-status-page-examples
The post walks through ten status page examples and highlights clear communication, simple layouts, and expectation-setting details that help users during incidents.
https://uptimerobot.com/blog/10-real-status-page-examples
Disappointing People Early
https://log.andvari.net/disappointing-people-early.html
The post argues teams should make reliability targets, support limits, and roadmap uncertainty explicit early so customers and stakeholders do not build riskier implicit expectations.
https://log.andvari.net/disappointing-people-early.html