DevOps&SRE Library
19K subscribers
426 photos
2 videos
2 files
5.16K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Download Telegram
Karpenter Optimizer: cost optimization

This tool analyzes Karpenter NodePool usage and offers AI-powered recommendations to reduce AWS EC2 costs while maintaining performance.


https://github.com/kaskol10/karpenter-optimizer
cek

Explore OCI container images without running them.


https://github.com/bschaatsbergen/cek
Какие инструменты ускоряют запуск продуктов и упрощают разработку

Узнайте на GoCloud 2026

9 апреля команда Cloud.ru проводит большую ИТ-конференцию про облака и ИИ.

В этот раз отдельный трек посвящен разработке и инструментам, которые снижают нагрузку на команду:
автоматизация в эпоху ИИ

DevOps-инструменты в облаке

эффективные среды для разработки, CI/CD и обучения

DevOps- и SRE-агенты

защита cloud native приложений

и другие доклады


Также будут отдельные треки про ИИ, облачную инфраструктуру и работу с данными. И самое крутое – практические воркшопы: берите ноутбук и решайте прикладные задачи под руководством экспертов Cloud.ru.

Где и когда:
9 апреля в Москве и онлайн

👉Не пропустите👈
Please open Telegram to view this post
VIEW IN TELEGRAM
linnix

eBPF-powered Linux observability with AI incident detection.


https://github.com/linnix-os/linnix
Yandex B2B Tech запустила Stackland — контейнерную платформу для развертывания и масштабирования приложений в закрытом контуре on-prem. По сути, это готовая инфраструктура, которая позволяет "из коробки" развернуть управляемые сервисы Yandex Cloud: S3-хранилище, базы данных, средства контейнеризации. Можно за несколько часов развернуть на своих выделенных или арендованных сервисах, а также на виртуализации, а не тратить недели и месяцы на сборку базового стека, необходимого для поддержки и разработки приложений.

Основная идея — сократить время, которое команды тратят на инфраструктуру, особенно в сценариях, где данные нельзя выносить в публичное облако и приходится жить в гибридной модели. При этом заявляют ускорение разработки и снижение затрат примерно в 1,5 раза. Уже сейчас пользователи тестируют платформу в качестве готовой ИИ-инфраструктуры, базы для создания аналитических систем, а также для разработки микросервисных приложений.

Платформа позволяет без дополнительной интеграции быстро внедрять во внутрикорпоративную среду сервисы Yandex Cloud. Сейчас уже доступны SpeechSense и DataLens, а в ближайшее время будет добавлена AI Studio.

Запросить демо платформы, а также записаться на индивидуальную консультацию с архитекторами платформы можно по ссылке.
radar

Visualize your cluster topology, browse resources, stream logs, exec into pods, inspect container image filesystems, manage Helm releases, monitor GitOps workflows (FluxCD & ArgoCD), and forward ports — all from a single binary with zero cluster-side installation.


https://github.com/skyhook-io/radar
onecli

OneCLI is an open-source gateway that sits between your AI agents and the services they call. Instead of baking API keys into every agent, you store credentials once in OneCLI and the gateway injects them transparently. Agents never see the secrets.

Why we built it: AI agents need to call dozens of APIs, but giving each agent raw credentials is a security risk. OneCLI solves this with a single gateway that handles auth, so you get one place to manage access, rotate keys, and see what every agent is doing.

How it works: You store your real API credentials in OneCLI and give your agents placeholder keys (e.g. FAKE_KEY). When an agent makes an HTTP call through the gateway, the OneCLI gateway matches the request to the right credentials, swaps the FAKE_KEY for the REAL_KEY, decrypts them, and injects them into the outbound request. The agent never touches the real secrets. It just makes normal HTTP calls and the gateway handles the swap.


https://github.com/onecli/onecli
How I Dropped Our Production Database and Now Pay 10% More for AWS

https://alexeyondata.substack.com/p/how-i-dropped-our-production-database
Is Infrastructure as Code the Next Abstraction to Fall?

I’ve been staring at a Terraform module for the last ten minutes, and I can’t stop thinking about a question that would have been absurd two years ago: why am I writing this?

Not “why am I provisioning this infrastructure.” That part makes sense. But why am I writing HCL, a domain-specific language that exists to describe infrastructure in a way that humans can read, when I have an AI agent sitting in my terminal that can call the AWS API directly?

It’s the kind of question that sounds naive until you realise the same logic is playing out across every layer of the stack. And the more I look at it, the more I think we’re watching the early stages of a fundamental shift in how we interact with machines.


https://sjramblings.io/is-infrastructure-as-code-the-next-abstraction-to-fall
Inside Terraform: A series about the internals of Terraform

This is the start/index post for a series of blog posts about the internals of Terraform. In this series, I will deep dive into different parts of Terraform and explain how they work under the hood.

The end-goal of this is to enable the reader to develop a deeper understanding of Terraform and how it works. After reading this, I would hope you are able to contribute to Terraform itself, add a new block to the language, or change existing behavior. I will not try to cover every single detail of Terraform, but I will try to cover the most important parts and give you a good overview of how different parts of Terraform work together.

My hope is that this series helps the reader to at least get a step closer to understanding the internals of Terraform. I won’t be covering anything related to language design and graph theory here; there are too many holes in my knowledge there as well. Maybe I’ll write something to that end in the future as well, probably not.


https://danielmschmidt.de/posts/2025-11-21-inside-terraform
terrapod

Open-source platform replacement for Terraform Enterprise.


https://github.com/mattrobinsonsre/terrapod
Advanced cost-aware Kubernetes scheduling for multi-cluster cost optimization with custom metrics

https://medium.com/@naeemulhaq/advanced-cost-aware-kubernetes-scheduling-for-multi-cluster-cost-optimization-with-custom-metrics-7ae709d712d2
Hosting and scaling EKS hybrid nodes with KubeVirt and Kube-OVN CNI

https://itnext.io/hosting-and-scaling-eks-hybrid-nodes-with-kubevirt-and-kube-ovn-cni-a9305d1290f8
Moving Logic Out of Pods: Extending the Argo Workflows Controller

In this article, I'll show how the Argo Workflows Executor Plugin lets you extend the Argo Workflows controller without maintaining your own fork—simply by implementing a small HTTP server in any language. As a bonus, this same mechanism reduces the number of extra pods in your DAGs and lightens the load on the Kubernetes scheduler. If you're new to Argo, I'll briefly cover the architecture and where plugins fit in. We'll finish with practical examples and key configuration details.


https://hackernoon.com/moving-logic-out-of-pods-extending-the-argo-workflows-controller
k8squest

K8sQuest is a local, game-based Kubernetes training platform with an interactive GUI-like terminal interface. Each mission breaks something in Kubernetes. Your job is to fix it.


https://github.com/Manoj-engineer/k8squest
3
Media is too big
VIEW IN TELEGRAM
Не “что сломалось”, а “почему сломалось”

С этого начинается observability — и об этом новый выпуск «404 секунд» — шоу о трендах в IT.

Сам формат — короткий: ровно 404 секунды. Но внутри — плотный разбор тем про observability: почему одних данных недостаточно, откуда берётся alert fatigue и как перестать тонуть в алертах, которые ничего не объясняют.

Плюс — про инструменты, которые помогают собрать систему воедино. Например, Monium: когда вся телеметрия сходится в одном месте и даёт не просто сигналы, а понимание, где и почему произошел сбой

В выпуске: от устаревшего мониторинга к полноценной наблюдаемости.

- Почему метрики, логи и трейсы сами по себе не спасают.
- Как уменьшить шум алертов и начать видеть систему целиком.
- И как AI постепенно становится частью процессов мониторинга.

Если инфраструктура — это ваша зона ответственности, пропускать не стоит. Посмотреть можно уже на YouTube, VK Видео и в Яндекс Музыке.