DevOps&SRE Library
19.4K subscribers
425 photos
2 videos
2 files
5.29K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Download Telegram
⚠️ Хватит плодить хрупкие скрипты и оставлять дыры для троянов. Пора писать пуленепробиваемый инфраструктурный код.

🎥 Приглашаем на вебинар - Продвинутый Bash

На вебинаре вы узнаете:
- Связка set -euo pipefail навсегда исключит тихое проглатывание ошибок и потерю данных в конвейерах.
- Нативные подстановки Bash заменят тысячи ресурсоемких вызовов sed и сэкономят CPU.
- Регулярный мониторинг системных профилей защитит продакшен от перехвата команд троянами.
- Грамотный перехват сигналов через trap обеспечит безопасное сворачивание процессов при сбоях.

В результате вебинара вы:
- Замените многоуровневые костыли лаконичной логикой на базе ассоциативных массивов.
- Исключите утечки глобальных переменных через жесткую изоляцию областей видимости в функциях.
- Внедрите нативную построчную трассировку скриптов вместо примитивного дебага echo-принтами.
- Начнете напрямую пробрасывать переменные окружения в SystemD-юниты для надежного старта сервисов.

🧠 Открытый урок проходит в преддверии старта курса «Администратор Linux. Продвинутый уровень»

👉 Для участи зарегистрируйтесь: https://vk.cc/cYifdo

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru, erid: 2VtzqwQGMeg
extenddb

A DynamoDB-compatible API adapter, ExtendDB speaks the DynamoDB wire protocol — any AWS SDK, CLI, or tool that works with DynamoDB works with ExtendDB, unchanged.


https://github.com/ExtendDB/extenddb
Monitoring reliably at scale

Designing monitoring that works when everything else doesn’t.


https://medium.com/airbnb-engineering/monitoring-reliably-at-scale-ca6483040930
👩‍💻 ИИ-ассистенты уже умеют писать код, предлагать исправления и ускорять разработку.

Но в реальных проектах вайб-кодинг часто заканчивается нестабильным результатом, неожиданными ошибками и хаосом в промптах.

На открытом уроке:
разберём, почему красивые демонстрации не всегда работают в production-задачах и как перейти от случайного использования ИИ к системному подходу
поговорим о типичных ошибках при работе с ИИ-ассистентами, разберём практики, которые помогают получать предсказуемый результат
покажем, как использовать шаблоны и подходы, применимые в реальной разработке
разберём живую демонстрацию на open-source проекте

После занятия вы поймёте, как выстраивать управляемую работу с ИИ-инструментами, где находятся риски и как переносить рабочие подходы в свои проекты.

🗓 Открытый урок пройдёт 16 июня в 20:00 МСК в преддверии старта курса «ИИ для разработчиков».

Подробности и регистрация: https://vk.cc/cYo2kZ

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqunoSkY
When AI SRE Fails: Production Reality, Failure Modes, and What They Cost

What you won't find in the marketing collateral is the documented production case where a four-agent AI SRE system runs to €8,500 per month — a 15x multiplier over a simple LLM chat implementation — a number most teams discover only after they've deployed.


https://www.softwareseni.com/when-ai-sre-fails-production-reality-failure-modes-and-what-they-cost
Как устроены продукты, которые задают тренды?

Т-Банк готовит летний фест для тех, кому важно не просто слушать, а разбираться, как реально устроены продукты

20 июня «Сезон кода» собирает разработчиков, аналитиков и продактов в Санкт-Петербурге, чтобы показать, как создаются продукты — от первых гипотез до продакшена.

Вас ждут:

— прикладные доклады команд Т-Банка и других компаний про архитектуру, бэкенд и интеграции;
— демо-зоны с ключевыми платформенными и коммуникационными сервисами и графовой аналитикой;
— продуктовый стрим «Продуктовая кухня»: разберем, как данные превращаются в решения, а гипотезы — в рост продукта и ценность для пользователя;
— формат, где знакомства происходят прямо по ходу программы.

А еще — баскетбольная площадка, пинг-понг и большое афтепати с диджеем.
Фест пройдет в ИТ-хабе Группы компаний «Т-Технологии».
Количество мест ограничено — успейте зарегистрироваться
The Pulse: AI load breaks GitHub – why not other vendors?

GitHub's reliability has been beyond unacceptable recently: last month, third party measurements pinned it at one nine (right at 90%).


https://blog.pragmaticengineer.com/the-pulse-ai-load-breaks-github
You've Got (Too Much) Mail: Behind the Scenes of the 3/25/26 Voice Outage

As part of a routine infrastructure change, a configuration update accidentally caused a large portion of Discord's session management servers to shut down simultaneously.


https://discord.com/blog/behind-the-scenes-of-the-3-25-26-voice-outage
Incident Report: May 19, 2026 - GCP Account Suspension

Railway experienced a platform-wide service disruption due to Google Cloud incorrectly placing our account in a suspended status.


https://blog.railway.com/p/incident-report-may-19-2026-gcp-account-outage
Why Your KServe InferenceService Won't Become Ready: Four Production Failures and Fixes

A practitioner's account of the errors the KServe getting-started documentation doesn't tell you about — with exact terminal output, root causes, and working Kustomize patches.


https://sodiq-jimoh.hashnode.dev/why-your-kserve-inferenceservice-won-t-become-ready-four-production-failures-and-fixes
InfraDev Community приглашает на InfraDev Meetup #4: про AI и не только
Прямо сейчас мы наблюдаем как AI в SDLC меняет процесс разработки — об удачных примерах и кейсах поговорим в этот раз. Обсудим, как разрабатывать инфраструктурные сервисы с помощью AI и как построить MLOps-платформу для обучения моделей. И не только: пока AI не перестроил DevOps-цикл, классические вызовы сборки образов для виртуальных машин остаются актуальными.

Спикеры
▫️Кирилл Фролов, эксперт-разработчик в отделе разработки базовых сервисов, VK Cloud, VK Tech
▫️Павел Шипилов, Старший разработчик ML Платформы в Avito
▫️Александр Александров, системный архитектор в направлении разработки и управления инфраструктурой, VK Cloud, VK Tech
Подробнее о докладах читайте на странице мероприятия.

Когда: 10 июня, с 18:00 до 23:59
Где: Москва, Ленинградский пр., 70, офис VK Tech, БЦ «Алкон» (количество мест ограничено).

Приходите на встречу или участвуйте онлайн.

Зарегистрироваться.
A one-line Kubernetes fix that saved 600 hours a year

Every time we restarted Atlantis, the tool we use to plan and apply Terraform changes, we’d be stuck for 30 minutes waiting for it to come back up.


https://blog.cloudflare.com/one-line-kubernetes-fix-saved-600-hours-a-year
Why Kubernetes Has No Login — And How We Solved It for AuditRadar

When we set out to build the Logins page for AuditRadar — a real-time audit log explorer for OpenShift and Kubernetes — we hit a wall that forced us to deeply understand how authentication actually works on each platform.


https://blog.audit-radar.com/why-kubernetes-has-no-login-and-how-we-solved-it-for-auditradar
Durable Workflows Beyond Vercel: Version-Safe Orchestration for Kubernetes

Workflow DevKit lets you write durable, long-running workflows directly in your Next.js and Node.js apps. You define steps with ’use step’, and the SDK handles persistence, retries, and replay automatically. Workflows survive server restarts, can sleep for days, and resume exactly where they left off.

On Vercel, all of this works out of the box — the platform handles deployment versioning and queue routing behind the scenes. But what happens when you deploy to your own Kubernetes cluster? Version mismatch. And it’s subtle enough to corrupt data before you notice.

We built Platformatic World to fix this. It’s a drop-in World implementation that brings the same deployment safety to any Kubernetes cluster. Every workflow run is pinned to the code version that created it. Queue messages are routed to the correct versioned pods. Old versions stay alive until all their in-flight runs are complete.


https://blog.platformatic.dev/durable-workflows-kubernetes-version-safe
Designing for Failure with CloudNativePG

This post focuses on three areas that separate a demo from production systems: backups, recovery and connection pooling.


https://dylanmarkdacosta.medium.com/designing-for-failure-with-cloudnativepg-2c3987605a39
Building a Production-Grade HA Kubernetes Cluster on a Homelab with $0 in Cloud Costs

How I turned four Proxmox nodes, some enterprise surplus drives, and an afternoon into a fully automated HA k3s cluster with Rancher, Traefik, and Ansible — all running on hardware that draws less power than a gaming PC.


https://thiago-marsal.medium.com/homelab-k3s-ha-cluster-a-complete-architecture-guide-6a60005b6e99
1
SlimFaas

SlimFaas is a lightweight, plug-and-play Function-as-a-Service (FaaS) platform for Kubernetes (and Docker-Compose / Podman-Compose).


https://github.com/SlimPlanet/SlimFaas
Что общего у SRE и рыбаков? «GitOps = реальность» — это миф? Не создаёт ли Chaos Engineering ещё больше хаоса?..

Звучит как те самые внезапные вопросы перед сном в будний день 👀

И, кстати, ответ на все три у нас имеется! Правда, не здесь, а в подкасте «В SREду на кухне» — его ведут опытные инженеры из Авито. Они обсуждают наболевшее, приглашают внешних гостей и коллег, а также делятся дополнительными инсайтами, статьями по теме и анонсами встреч в своём канале.

Советуем подписаться и сохранить на будущее пару выпусков 🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
agentgram

A single front door for all your AI agents and MCPs


https://github.com/dfradehubs/agentgram