DevOps&SRE Library
19.2K subscribers
428 photos
2 videos
2 files
5.22K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Download Telegram
Migrating Etsy's database sharding to Vitess

This database cluster contains most of Etsy's online data and is made up of ~1,000 tables distributed across ~1,000 shards.


https://www.etsy.com/codeascraft/migrating-etsyas-database-sharding-to-vitess
We Automated Everything Except Knowing What's Going On

AI collapsed the cost of building software, but the systems underneath are buckling.


https://eversole.dev/blog/we-automated-everything
Why our Kafka consumers survived the day but died every night

It took us 4–5 incidents over several weeks to even recognise the pattern.


https://medium.com/@lokeshsoni/why-our-kafka-consumers-survived-the-day-but-died-every-night-8c9eb6ae528f
Reliability Engineering for Air-Gapped Systems

All those systems were air-gapped, meaning the team that builds the software has no access to metrics, logs or runtime.


https://blog.alexewerlof.com/p/reliability-engineering-for-air-gapped
How I Dragged Phantom Tide Out of an OOM Kill Loop

From the inside, it was a systems failure spread across FastAPI, uvicorn, Redis, ClickHouse, APScheduler, Docker memory limits, and a startup sequence that had quietly become a deterministic self-attack.


https://github.com/tg12/phantomtide/blob/main/docs/oom-postmortem.md
Shell Tricks That Actually Make Life Easier (And Save Your Sanity)

There is a distinct, visceral kind of pain in watching an otherwise brilliant engineer hold down the Backspace key for six continuous seconds to fix a typo at the beginning of a line.

We’ve all been there. We learn ls, cd, and grep, and then we sort of… stop. The terminal becomes a place we live in-but we rarely bother to arrange the furniture. We accept that certain tasks take forty keystrokes, completely unaware that the shell authors solved our exact frustration sometime in 1989.

Here are some tricks that aren’t exactly secret, but aren’t always taught either. To keep the peace in our extended Unix family, I’ve split these into two camps: the universal tricks that work on almost any POSIX-ish shell (like sh on FreeBSD or ksh on OpenBSD), and the quality-of-life additions specific to interactive shells like Bash or Zsh.


https://blog.hofstede.it/shell-tricks-that-actually-make-life-easier-and-save-your-sanity
drpc-agent-skills

Blockchain RPC skills for AI coding agents


https://github.com/drpcorg/drpc-agent-skills
Исследование про использование облачных платформ

Apple Hills Digital проводит опрос среди IT-специалистов и тех, кто работает с инфраструктурой.

Цель — понять текущее состояние рынка и зафиксировать реальные практики работы с облаками:
— какие платформы и типы инфраструктуры используются
— под какие задачи применяются облачные сервисы
— как оцениваются качество сервисов, поддержка и SLA
Заполните анкету* — участие также дает шанс выиграть iPhone

* Принимая участие в опросе Вы становитесь участником розыгрыша под наименованием «Если ты работаешь в IT, пройди опрос и выиграй iPhone 17 Pro». Информация об организаторе розыгрыша, сроках проведения, правилах проведения розыгрыша, количестве призов, сроках, месте, порядке получения призов размещена по ссылке.
EKS Auto Mode: Simplify Kubernetes with Terraform Setup

Instead of managing node groups, installing Karpenter, configuring the VPC CNI plugin, deploying the AWS Load Balancer Controller, setting up the EBS CSI driver, and keeping all of those components updated and compatible with each other - you enable a single flag and AWS handles all of it.


https://darryl-ruggles.cloud/a-complete-terraform-setup-for-eks-auto-mode-is-it-right-for-you
Terraform Tips from the IaC Trenches

After a few years of writing open-source Terraform modules, I've picked up a few syntax tricks that make code safer, cleaner, and easier to maintain.


https://rosesecurity.dev/2025/12/04/terraform-tips-and-tricks.html
3
ПП-ИБП: суперфуд для железа

Я к правильному питанию положительно отношусь… хотя и не соблюдаю его. Но вот ПП для техники — другое дело! Systeme Electric — те, кто создали первые в мире ПП-ИБП — Правильное Питание для электрооборудования.

Systeme Electric — бывшее российское подразделение Schneider Electric, производителя легендарных бесперебойников APC. В свое время Шнайдер построил в России заводы, все организовал на высшем уровне — а потом из-за евросанкций вынужден был уйти. Ну а умные люди подумали-подумали и на базе активов ушедшего «Шнайдера» основали новую компанию, полностью сохранив производственные мощности, технологии и лучшую команду инженеров.

Что такое ПП-ИБП Systeme Electric с онлайн-топологией (нулевым временем переключения на батареи):
✔️ Тотальный онлайн-ЗОЖ — онлайн Защита от Отключений Железа.
✔️ Повышенная БЖУ — Бесперебойность Жизненно-важных Устройств. Тянут нагрузку в 150% от номинальной.
✔️ Настоящий суперфуд для оборудования — высочайший КПД 95%.
✔️ Самое полное ПП-меню — поддерживают все возможные интерфейсы и протоколы (EPO, SNMP, RS-485, RS-232, USB, RJ45/RJ11, EMBS).

Плюсы, которые реально впечатляют:
✔️ Монолитный корпус со встроенными аккумуляторами и поворотным LCD-дисплеем на русском — удобно и понятно.
✔️ Автоматическое определение внешних АКБ — никаких ручных настроек.
✔️ Подключение до 10 дополнительных внешних батарейных блоков — время автономной работы увеличивается, если это необходимо.

И самое важное: официальная гарантия у Systeme Electric целых 3 года. Рекорд! Ни у кого такого нет, даже у APC «Шнайдера» гарантия была 2 года, у китайских бесперебойников не более года, а у серозавезенных APC гарантии нет вовсе.

ТехППоддержка круглосуточная: чат и мессенджеры — 24/7, а днем — звонки. ПэПэ в чистом виде, после 6 — можно!

И никакого дешманского китайского фастфуда, от которого техника только «болеет». Если хотите, чтобы ваше железо было не просто под защитой от отключений, но и «сидело на ПП» — без помех и скачков напряжения, то ПП-ИБП Systeme Electric — то, что доктор прописал! На здоровье оборудования не экономят!

Больше про первые в мире ПП-ИБП — здесь.
How We Manage Domain and DNS Management with Infrastructure as Code

After successfully adopting Terraform for GitHub repository management, the next step in our Infrastructure as Code (IaC) journey was clear: dogfood our own product and manage our domains and DNS zones using the DNSimple Terraform provider.


https://blog.dnsimple.com/2025/11/managing-domains-terraform-dnsimple
DriftHound

DriftHound is a Rails WebApp that receives Terraform drift reports via API and provides visibility into infrastructure drift across your projects.


https://github.com/drifthoundhq/drifthound
otel-front

A lightweight, single-binary OpenTelemetry viewer for local development. Visualize traces, logs, and metrics from your instrumented applications — no Docker, no databases, no complex setup.


https://github.com/mesaglio/otel-front
scion

Run multiple agents in parallel — each in its own container, with its own workspace, collaborating on your code or project files simultaneously.


https://github.com/GoogleCloudPlatform/scion
atomic

A personal knowledge base that turns markdown notes into a semantically-connected, AI-augmented knowledge graph.

Atomic stores knowledge as atoms — markdown notes that are automatically chunked, embedded, tagged, and linked by semantic similarity. Your atoms can be synthesized into wiki articles, explored on a spatial canvas, and queried through an agentic chat interface.


https://github.com/kenforthewin/atomic
Inside a Self-Hosted AI Coding Assistant: Architecture, Kubernetes Deployment, and llama.cpp Parallelism

More and more enterprises want the benefits of AI-assisted coding, automatic completions, suggestions, and inline generation, without sending their source code to external APIs.

This has naturally increased interest in self-hosted coding assistants, where all inference runs on internal hardware and all models stay inside a controlled environment.

We built a complete prototype of such a system. In this article, we walk through its architecture, explain how Kubernetes is used to deploy it, and how different system parameters interact to determine real-world performance. In a separate post, we study how the llama.cpp inference server behaves under increasing load.


https://medium.com/@ferraricorneloup.teo/inside-a-self-hosted-ai-coding-assistant-architecture-kubernetes-deployment-and-llama-cpp-158330a12441