DevOps&SRE Library
18.2K subscribers
461 photos
5 videos
2 files
4.9K links
Библиотека статей по теме DevOps и SRE.

Реклама: @ostinostin
Контент: @mxssl

РКН: https://www.gosuslugi.ru/snet/67704b536aa9672b963777b3
Download Telegram
Если при слове ITSM у вас сразу всплывают бюрократия, отчёты и скучные таблицы — самое время пересмотреть подход.

SRE-команды, которые игнорируют ITSM, рано или поздно тонут в хаосе инцидентов, тикетов и бесконечных «костылей».

На открытом уроке вы узнаете, как ITSM может стать вашим союзником, а не помехой:

- Разберём, какие процессы реально помогают управлять инцидентами, изменениями и проблемами, а где стоит оставить место автоматизации.

- Покажем, как ITSM-практики делают инфраструктуру предсказуемой и прозрачной, не превращаясь в бюрократию.
- Вы поймёте, как выстроить процессы, которые работают на надёжность и скорость, а не мешают инженерам писать код.
- Увидите, как навести порядок в SRE-команде без перегиба — с пользой для бизнеса и удовольствием для инженеров.

📌30 октября в 20:00 МСК. Открытый вебинар проходит в преддверии старта курса «SRE практики и инструменты».

Регистрируйтесь и узнайте, как превратить ITSM из формальности в реальный инструмент стабильности: https://vk.cc/cQLvmL

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxDiN2a
Please open Telegram to view this post
VIEW IN TELEGRAM
volcano-vgpu-device-plugin

Volcano vgpu device-plugin can provide device-sharing mechanism for NVIDIA devices managed by volcano.


https://github.com/Project-HAMi/volcano-vgpu-device-plugin
KAI-Scheduler

KAI Scheduler is a robust, efficient, and scalable Kubernetes scheduler that optimizes GPU resource allocation for AI and machine learning workloads.


https://github.com/NVIDIA/KAI-Scheduler
Infrastructure as Code: новый курс OTUS

Инфраструктура как код перестала быть редким навыком — сегодня это must have для системных инженеров, админов, DevOps и разработчиков

OTUS запускает обновлённый курс «Infrastructure as a Code», где вы научитесь строить предсказуемую инфраструктуру, работать с Terraform, Ansible, GitLab, Jenkins и другими инструментами

На курсе вы:
— освоите IaC на уровне Middle+
— развернёте реальные пайплайны для управления инфраструктурой
— научитесь кастомизировать Ansible и работать с иммутабельными окружениями
— соберёте портфолио проектов под руководством практиков

📌 Формат: онлайн, 4 месяца, 2 вебинара в неделю
📅 Старт: 29 октября (вступительное тестирование)

Запишитесь на тест, чтобы попасть в группу курса «Infrastructure as a Code»

https://vk.cc/cQLN2H

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqxiRYu5
kubezonnet

Monitor cross-zone network traffic in Kubernetes.


https://github.com/polarsignals/kubezonnet
k3k

K3k, Kubernetes in Kubernetes, is a tool that empowers you to create and manage isolated K3s clusters within your existing Kubernetes environment.


https://github.com/rancher/k3k
Media is too big
VIEW IN TELEGRAM
То, что будет на Infra DrinkUp, — останется там

Коллеги из Авито зовут на встречу 12 ноября. Обещают брейншторм об инструментах IaC, разработке в SRE, базах данных, Kubernetes и многом другом.

Самое главное — формат участия только офлайн, без повторов и записи. Кажется, план на 12-е число уже есть. Пойдёте?

Регистрация по ссылке, там же и подробности ивента.
Please open Telegram to view this post
VIEW IN TELEGRAM
ramalama

RamaLama is an open-source developer tool that simplifies the local serving of AI models from any source and facilitates their use for inference in production, all through the familiar language of containers.


https://github.com/containers/ramalama
hwameistor

HwameiStor is an HA local storage system for cloud-native stateful workloads. It creates a local storage resource pool for centrally managing all disks such as HDD, SSD, and NVMe. It uses the CSI architecture to provide distributed services with local volumes and provides data persistence capabilities for stateful cloud-native workloads or components.


https://github.com/hwameistor/hwameistor
Why Environments Beat Clusters For Dev Experience

The cloud ecosystem has reached a turning point. Tools for operators/administrators are now mature and can handle most day-to-day operations that deal with Kubernetes clusters. Finally, we can turn our focus to application developers and their needs.

If you look at all the Kubernetes tools available, you’ll understand that most of them treat Kubernetes as another form of infrastructure. You can easily find tools that install Kubernetes, monitor Kubernetes, secure Kubernetes, do cost estimations for Kubernetes, etc. But how many Kubernetes tools can you find that target application developers and their day-to-day responsibilities?

Several companies even try to hide Kubernetes completely from developers by using leaky abstractions or so-called developer portals. These adoption efforts almost always fail simply because nobody asked the developers what they really need. Don’t fall into this trap.

In this article, we see some common examples of what companies “think” about developers’ needs versus what developers need in practice, in the context of application development for Kubernetes.


https://medium.com/containers-101/why-environments-beat-clusters-for-dev-experience-f6eef0cd928b
Terraform state locking explained (and why it hurts at scale)

Terraform state locking is a textbook example of solving a distributed coordination problem with the wrong primitive. You have concurrent actors, partial modifications, and dependency graphs—and the solution is a global mutex on a JSON blob. The scaling characteristics are exactly what you'd predict from this mismatch.


https://stategraph.dev/blog/terraform-state-locking-explained
How to write and rightsize Terraform modules

There are four key areas to consider when deciding on best practices for designing Terraform modules: scope, code strategy, security, and testing.


hashicorp.com/en/blog/how-to-write-and-rightsize-terraform-modules
pogocache

Fast caching software built from scratch with a focus on low latency and cpu efficency.


https://github.com/pogocache/pogocache
🎥 Вебинар по Linux: PostgreSQL без простоев: создаём отказоустойчивый кластер на Patroni и etcd

👉 На вебинаре вы узнаете:
-Что такое Patroni и как он обеспечивает высокую доступность PostgreSQL.
-Как etcd используется для хранения конфигурации и координации работы узлов.
-Как настроить репликацию, failover и проверку состояния кластера.
-Как мониторить и тестировать отказоустойчивость PostgreSQL-кластера на практике.

💪 В результате вебинара вы:
-Научитесь разворачивать кластер PostgreSQL с Patroni и etcd.
-Поймёте архитектуру высокой доступности и роль каждого компонента.
-Сможете настроить автоматическое переключение master/replica при сбоях.
-Получите практическое понимание принципов отказоустойчивости баз данных


🎁 Все участники вебинара получат специальные условия на полное обучение курса "Инфраструктура высоконагруженных систем"

👉 Для участия зарегистрируйтесь https://vk.cc/cQOBGA

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2VtzqwZHGis
devpush

Like Vercel, but open source and for all languages.


https://github.com/hunvreus/devpush
runtime-radar

Runtime Radar is an open-source solution for monitoring runtime security events and responding to incindents in containerized environments.


https://github.com/Runtime-Radar/runtime-radar
3
terraform-switcher

The tfswitch command-line tool lets you switch between different versions of Terraform.
If you do not have a particular version of Terraform installed, tfswitch will download and verify the version you desire.
The installation is minimal and easy.
Once installed, simply select the version you require from the dropdown and start using Terraform.


https://github.com/warrensbox/terraform-switcher
squawk

Linter for Postgres migrations & SQL


https://github.com/sbdchd/squawk
pgadmin4

pgAdmin 4 is a rewrite of the popular pgAdmin3 management tool for the PostgreSQL


https://github.com/pgadmin-org/pgadmin4