DevOps&SRE Library
19.4K subscribers
426 photos
2 videos
2 files
5.31K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Download Telegram
Что общего у SRE и рыбаков? «GitOps = реальность» — это миф? Не создаёт ли Chaos Engineering ещё больше хаоса?..

Звучит как те самые внезапные вопросы перед сном в будний день 👀

И, кстати, ответ на все три у нас имеется! Правда, не здесь, а в подкасте «В SREду на кухне» — его ведут опытные инженеры из Авито. Они обсуждают наболевшее, приглашают внешних гостей и коллег, а также делятся дополнительными инсайтами, статьями по теме и анонсами встреч в своём канале.

Советуем подписаться и сохранить на будущее пару выпусков 🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
agentgram

A single front door for all your AI agents and MCPs


https://github.com/dfradehubs/agentgram
The Problem with AI-Generated Post-Incident Reviews

The real learning comes from analyzing the incident while writing the document, not reading it; the document at the end is the residue of the learning.


https://greatcircle.com/blog/2026/05/05/problem-with-ai-generated-post-incident-reviews
You Shipped It Fast. But Did You Ship It Right?

AI tools have genuinely changed how fast teams can produce code, but they haven't changed how fast a codebase can safely absorb that code.


https://stackoverflow.blog/2026/05/12/you-shipped-it-fast-but-did-you-ship-it-right
On benchmarking

Benchmarking is hard. There are many ways to do it wrong and few to do it right.

But zooming out from any single system or harness, there are broad principles that should be applied to all benchmarking. Using these correctly makes it difficult to produce biased results.

Am I the world's best benchmarker? Certainly not. I invented the language balls, after all. But correctness and precision are important parts of PlanetScale's culture. We've spent considerable time learning the art of benchmarking, and are here to share best-practices.

Here, we're focusing primarily on benchmarking databases, but these principles apply to many domains.


https://planetscale.com/blog/on-benchmarking
Humans aren't fast enough for 4 9's

When thinking about Service Level Objectives (SLOs) and contractual Service Level Agreements (SLAs) for availability, I always like to put the percentages into concrete numbers.


https://incident.io/blog/humans-arent-fast-enough-for-4-nines
Why reviewing AI-generated code is devilishly hard

When working on code with GenAI assistance you need a better understanding of the system than when working without.


https://www.spinellis.gr/blog/20260523
Why Teamwork Makes (Or Breaks) Your Incident Response

High-severity incidents expose how a team really works together, usually within the first ten minutes.


https://uptimelabs.io/articles/teamwork-incident-response
Say the Thing You Want

You’re in a 1:1 with your manager, and things are going just fine. You talk about the project and that other thing. Toward the end, she asks: “Anything else?”

And there is something else. You want to lead that new initiative. Or move to a different team. Or you’ve been thinking about what stands in the way of your promotion. The thought is right there, sitting in the back of your throat. You’re going to say it, and then… “Nope, all good.”

You get out of the call feeling a specific kind of regret. You rationalize it somehow and then tell yourself you’ll bring it up next time (you won’t).


https://terriblesoftware.org/2026/04/01/say-the-thing-you-want
mq

mq is a command-line tool that processes Markdown using a syntax similar to jq.

It's written in Rust, allowing you to easily slice, filter, map, and transform structured data.


https://github.com/harehare/mq
“Good Taste” Is Just Experience

“In the age of AI, taste is the ultimate differentiator.”


https://terriblesoftware.org/2026/03/27/good-taste-is-just-experience
slumber

Slumber is a TUI (terminal user interface) HTTP client. Define, execute, and share configurable HTTP requests.


https://github.com/LucasPickering/slumber
markitdown

MarkItDown is a lightweight Python utility for converting various files to Markdown for use with LLMs and related text analysis pipelines.


https://github.com/microsoft/markitdown
cate

An infinite canvas for your code, terminals, browsers, docs, and AI agents.


https://github.com/0-AI-UG/cate
paneru

Paneru is a MacOS window manager that arranges windows on an infinite strip, extending to the right. A core principle is that opening a new window will never cause existing windows to resize, maintaining your layout stability.


https://github.com/karinushka/paneru
Как правильно работать с резервным копированием в облаке?

25 июня приглашаем на бесплатный вебинар от MWS Cloud Platform всех, кто работает с облаками.

Развеем мифы, разберём лучшие современные подходы и инструменты.

Обсудим интеграцию в процессы, консистентность, точечное восстановление и безопасность. Поговорим о плюсах нативных облачных инструментов.

Проведём демо в MWS Cloud Platform и ответим на ваши вопросы.

Зарегистрируйтесь, чтобы не пропустить!

25 июня в 14:00 (мск)

Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
opensre

The open-source framework for AI SRE agents, and the training and evaluation environment they need to improve. Connect the 60+ tools you already run, define your own workflows, and investigate incidents on your own infrastructure.


https://github.com/Tracer-Cloud/opensre
kubedock

Kubedock is a minimal implementation of the docker api that will orchestrate containers on a kubernetes cluster, rather than running containers locally. The main driver for this project is to run tests that require docker-containers inside a container, without the requirement of running docker-in-docker within resource heavy containers.


https://github.com/joyrex2001/kubedock
Администрируете Linux «по наитию» и гасите инциденты по ночам, вместо того чтобы управлять инфраструктурой системно?

🧠 На повышении квалификации «Администратор Linux. Продвинутый уровень» вы разложите Linux по полочкам: от установки, загрузки и работы с файловыми системами до сетей, сервисов, мониторинга, резервного копирования и безопасности. Будете разбирать реальные кейсы, а не учебные примеры уровня «домашнего сервера».

💪 После обучения вы сможете уверенно подбирать конфигурации под нагрузки, оптимизировать производительность, строить отказоустойчивые схемы, настраивать Zabbix/Prometheus, Nginx, базы данных, файрволы и бэкапы. Эти навыки — прямое усиление вашей позиции как системного администратора, DevOps-инженера или backend-разработчика.

🎁 Пройди вступительный тест и получи в подарок запись урока «Простой роутер на Linux». Десятки других записей будут разблокированы на странице курса.

👉 Пройти вступительный тест: https://vk.cc/cYMO2G

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru, erid: 2VtzqxY71xm
1 Million Tokens Per Second: Qwen 3.5 27B on GKE with B200 GPUs

96 B200 GPUs. 12 nodes. A load balancer distributing requests across them.


https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke-with-b200-gpus-161da5c1b592