DevOps FM
5.02K subscribers
663 photos
12 videos
10 files
777 links
♾️ Канал для тех, кто живёт DevOps и системным администрированием.

Новости, статьи, лучшие практики, инструменты и развлекательный контент. Cloud Native, Docker, Kubernetes, CI/CD, БД, мониторинг etc.

По вопросам — к Ладе @b_vls
Download Telegram
🔧Чиним кластеры: игра по освоению Kubernetes

В эту пятницу отправляемся в приключение! На GitHub вышел K8sQuest для тех, кто устал читать доки и хочет разобраться, как дебажить в проде на практике. В игре представлены 5 миров и 50 уровней, где предстоит разбираться с реальными проблемами внутри кластера:
Мир 1: CrashLoopBackOff, ImagePullBackOff, pending поды, метки, порты
Мир 2: Deployments, HPA, пробы работспособности и готовности, откаты
Мир 3: Сервисы, DNS, Ingress, Сетевые политики
Мир 4: PVs, PVCs, StatefulSet-ы, ConfigMap-ы, Секреты

На 50-м уровне воцарится хаос: море ошибок, шторм неопределённости :) Будет интересно новичкам и опытным инженерам.

🚀Делитесь в комментариях, до какого уровня дошли! Желаем хороших выходных, а дежурным – спокойных смен.

#devops #k8s #пятница
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍16🔥105
Что меняется с Docker v29.1 и Docker Compose (v2.40) на GitHub-runner'ах?

Бодрый DevOps! 🖖Понедельник начинаем с анонса. GitHub анонсировал обновления Docker и Docker Compose на hosted-runner'ах, rollout стартует уже сегодня, 9 февраля.
Речь идёт о Docker Engine v29.1, Docker Compose v2.40.3. Обновление на runner-ах коснётся всех Windows и Ubuntu образов, кроме ubuntu-slim.

В ветке v29 были внесены изменения в Docker Engine API, вынесены Deprecated фичи и опции CLI. В заметках релизов указали – обязательно убрать %PROGRAMDATA%\Docker\cli-plugins из листа для CLI-плагинов на Windows, переместить на %ProgramFiles%\Docker\cli-plugins. При использовании GitHub Actions изменения могут затронуть текущие workflow’ы. Мы рекомендуем протестировать сборки на версии v29 до начала обновления runner’ов. Апдейт нацелен на повышение безопасности.

Что сделать уже сейчас:
Протестировать локально с Docker Engine v29.1 и Compose v2.40.3
Проверить сборки, пуш образы, docker-buildx, сети, volume-mounts.
Просмотреть свои workflow
Какие deprecated фичи и CLI-опции используются
Закреплять версии (pin) в критичных конвейерах или запускать тесты на self-hosted раннерах/локально перед 9 февраля.
Отсматривать изменения GitHub Actions runner images в репозитории actions/runner-images
Следить за подробностями и возможными изменениями окружений.

👀Подробнее об обновлениях читайте в:
•Docs Docker
•Репозитории

#devops #release #docker
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥84👍4🤔1
Пятничное чтиво от DevOps FM

💻Сегодня читаем о БД и их особенностях при проектировании и масштабировании систем.

Поддержка MySQL – всё?
В MySQL-сообществе ходят слухи о заброшенности проекта. В блоге Отто Кекяляйнен (Kekäläinen) появился график активности репозитория MySQL на GitHub, и на первый взгляд кажется, что разработка остановилась с сердины сентября 2025 г. Джулия Вурал в статье разбирает, с чем связано долгое «тихое» межрелизье и внезапные всплески коммитов при публикации релизов. Ключевая мысль о состоянии метрик – это лишь данные, а GitHub, не всегда источник истины. Мы говорим о публичном зеркале, в котором активность возникает периодами под конкретные релизы. Рекомендуем статью всем, кто оценивает состояние проектов по активности в GitHub – тут.

Почему важно тюнить checkpoint в PostgreSQL?
Checkpoint-ы в PostgreSQL напрямую влияют на поведение I/O и генерацию WAL. Джобин Августин подробно разбирает, что приводит к снижению производительности. На тестовом pgbench-примере мы видим, как при увеличении интервала Checkpoint-а WAL уменьшился с 12 ГБ до 2 ГБ , а FPI – с 1.47M до 161k. Полезно рассмотреть, какие параметры «трогать», как смотреть логи и за какими метриками следить. Также автор рассуждает об увеличении recovery time и объясняет, почему в HA-сценариях (standby/Patroni) это не проблема. Рассмотреть use-case – здесь.

Эволюция Redis
Мартин Виссер описывает развитие Redis, in-memory БД, и объясняет, как проект превратился платформу для ИИ-задач. В статье представлены 4 периода: фундамент (структуры данных, RDB/AOF), масштабирование (Redis Cluster и защита), расширяемость и стриминг (Modules API, Streams), и эволюция для enterprise (ACL, многопоточность, RESP3, функции, интеграция Redis Stack в ядро, Vector Sets, FT.HYBRID). Внимание стоит уделить и лицензированию: переход Redis к source-available и возникновение форка Valkey. Интересен разбор «незаметных» изменений, таких как Multi-Part AOF, которые не добавляют новых команд, но радикально улучшают операционную стабильность. Всё об эволюции – тут.

📚Спокойных выходных и приятного чтения! Делитесь мыслями о состоянии БД в 2026 в комментариях.

#пятничноечтиво #databases
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥6👍42
Как CPU weight влияет на Kubernetes: переход на cgroup v2

👩‍💻 Итамар Холдер из Red Hat разбирает новую формулу перехода CPU shares из cgroup v1 в CPU weight для cgroup v2. Ранее при простом пересчёте контейнеры с 1 CPU получали слишком низкий приоритет по сравнению с процессами вне Kubernetes, а мелкие CPU-запросы невозможно было точно распределять внутри под-cgroups. Новая формула восстанавливает приоритет по умолчанию.

⌨️Внедрение и практика
• Изменение реализовано на уровне OCI-рантаймов (runc ≥1.3.2, crun ≥1.23), а не в Kubernetes. Внедрение новой формулы зависит от того, какой OCI-рантайм используется в вашем кластере.
runc поддерживает новую формулу с версии 1.3.2
crun – с версии 1.23
• Перед применением тестируйте значения CPU weight в staging.
• Обратите внимание на инструменты мониторинга и кастомные системы управления ресурсами – прежние формулы могут дать неверные прогнозы и метрики.
Новая формула CPU weight нужна для расстановки приоритетов контейнеров, управления CPU-запросами и для предсказуемости распределение ресурсов, что особенно важно в работе с высокими нагрузками.

Что почитать дальше:
Kubernetes GitHub Issue #131216 – подробный технический разбор с примерами и обсуждением выбора формулы.
KEP-2254: cgroup v2 – исходник cgroup v2 в Kubernetes.
Документация по cgroup в Kubernetes – актуальные рекомендации по управлению ресурсами.

#devops #kubernetes #containers
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍42🔥2
👀Как не переплачивать за облако?
Пётр Рукин, тех.руководитель в Nixys, 14 марта на Gamedev City Fest поделится опытом и практическими советами.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🎤 Спикер #gamedevcityfest2026

Петр Рукин, технический руководитель, Nixys

Тема выступления:
"Build-ферма для геймдева: стратегический выбор между облаком и собственным железом на реальных цифрах"

Петр — технический руководитель в Nixys, с более чем 5-летним опытом в DevOps и более 30 реализованными проектами для разных компаний и бизнесов. Он делится только реальным опытом, показывая настоящие сложности и подводные камни работы с инфраструктурой.

В докладе Петр подробно разберёт:
- когда облачные решения становятся дороже собственного железа (CapEx vs OpEx) и как считать TCO;
- скрытые расходы на данные, API-запросы и трафик, которые съедают бюджет;
- гибридные модели: как использовать облако для пиковых ночных билдов и нагрузочного тестирования, а основную разработку вести на on-premise;
- автоматическое масштабирование и настройку scaling policies для ресурсоёмких задач;
- практический чек-лист и архитектурный шаблон гибридной фермы, который даёт облачную гибкость без постоянных облачных счетов;
- реальные метрики, бенчмарки и критерии выбора между облаком и собственным железом для обоснования перед финансовым директором или инвестором.
1👍7🔥65
Срединедельная подборка новостей

🗣До весны осталось… два новостных дайджеста. Что запомнилось по итогам недели?

Обновления Linux
В Linux 7.0 ускорили обработку сетевых пакетов. Разработчики вручную встроили функцию timecounter_cyc2time(), т.к. компилятор не справлялся с этим автоматически. В тестах это дало +12% производительности UDP на 100ГБ сетевых картах. Такая оптимизация важна для новых сетевых протоколов, которые требуют точных отметок времени, например для Swift congestion control в TCP. Кроме того, улучшили работу подсистемы таймеров при переходе сервера в режим ожидания. Коммит – здесь, подробности – тут.

Chrome 145 – обновления безопасности
Google анонсировала стабильную версию браузера. Традиционно, усилили безопасность и обновили sandbox. Также добавили DBSC (Device Bound Session Credentials) для привязки сессий к конкретному устройству. Ввели разделение прав доступа для защиты от CSRF-атак, устранили 11 уязвимостей, в том числе критические – CVE-2026-2313 (CSS), CVE-2026-2314 (Codecs), CVE-2026-2315 (WebGPU). Обратите внимание, в новой версии нельзя откатить User-Agent Reduction. Для корпоративных пользователей Google поддерживает ветку Extended Stable с 8-недельным циклом обновлений. Релиз следующей версии – 10 марта. Подробнее – тут.

Отчёт об инцидентах в GitHub
GitHub опубликовали отчёт за январь 2026, где описали два крупных инцидента. 13 января на 46 минут проблема возникла у Copilot Chat и интеграции с IDE из-за ошибки конфигурации при обновлении модели GPT‑4.1, а через два дня увеличились задержки и тайм-ауты в сервисах репозиториев, API, Actions, уведомлениях и при авторизации при обновлении инфраструктуры БД. Инциденты от 9 февраля войдут в отчёт марта, а подробнее о решениях – здесь.

В каких средах Kubernetes HPA менее эффективен?
На InfoQ выкатили статью о проблемах autoscaling-а приложений для edge-инфраструктуры в Kubernetes. В ней автор поясняет, Horizontal Pod Autoscaler (HPA) не работает для сценариев с низкой латентностью и ограниченными ресурсами. HPA использует пропорциональную формулу и опирается на метрики типа CPU, что в edge-среде ведет к позднему масштабированию и росту числа подов. Модели не хватает гибкости при нестабильной нагрузке (IoT-шлюзы, игровые серверы). В качестве решения автор делится опытом использования Custom Pod Autoscaler (CPA), описывает архитектуру, логику на Python, интеграцию с системой метрик Prometheus, а также демонстрирует результаты нагрузочного тестирования. По сравнению с HPA алгоритм обеспечивает меньшую амплитуду колебаний числа реплик, стабильную латентность, снижение потребления CPU. Подробнее – тут.

Оптимизация работы с дашбордами
Fiveonefour Docs разобрали, как снизить нагрузку на базы OLTP и улучшить производительность дашбордов. В гайде автор описывает настройку CDC (Debezium, ClickPipes), репликацию данных и безопасный переход на ClickHouse без изменения логики. В статье также описан ИИ-workflow через MooseStack, где ассистенты (Claude Code, Cursor, Codex) работают с проверкой запросов и тестированием на локальном окружении, что ускоряет миграцию. Почитать – здесь, разобрать гайд – тут.

#devops #kubernetes #linux #новостнаяподборка
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍5🔥4
От пикселей до персонажа: ASCII-маскот в полёте

В эту пятницу знакомимся с интересным проектом от команды GitHub

👩‍💻 GitHub Copilot CLI получил анимированный ASCII-баннер, который оживляет терминал и превращает запуск CLI в перформанс.
Неочевидно, но анимация оказалась квестом: 3 секунды, 20 кадров и более 6 000 строк TypeScript. Зато! Маскот Copilot теперь красиво летает прямо в вашей консоли :)
У терминалов нет канвы, цвета ANSI ведут себя по-разному, а экранные читалки воспринимают быстро меняющиеся символы как шум. Поэтому анимация сделана в формате opt-in, цвета применяются через семантические роли (eyes, goggles, border и т.д.), а рендеринг через Ink. И баннер работает на разных ОС, терминалах, поддерживает светлые и тёмные темы, не мешает работать с CLI. К тому же, архитектура позволяет легко добавлять новые анимации, а инструмент вдохновил на создание open-source проекта ASCII Motion.

📔Читаем, смотрим, тестируем и вдохновляемся инженерным мастерством команды GitHub!

#devops #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍5🔥4
Как Netflix удерживает внимание миллионов с помощью кэша

🖖В этот понедельник поговорим о высоких нагрузках. В прошлом мы уже рассмотрели, как устроена архитектура стримингового сервиса. Ежедневно Netflix обслуживает сотни миллионов пользователей по всему миру, и скорость публикации напрямую влияет на удержание. Ключевым инструментом статье от NewsLetter назвали EVCache – распределённое in-memory хранилище.

💻EVCache используется для разных задач, каждая из которых напрямую влияет на производительность. Саураб Дашора в статье описал принцип работы look-aside cache для часто используемых данных. Например, рекомендации или история просмотров. Когда приложение запрашивает данные, то проверяет кэш, если данных там нет — обращается к БД. Так, при открытии домашней страницы Netflix рекомендации и миниатюры подгружаются почти моментально.

Хранилище вмещает transient data, которая содержит информацию о текущей сессии. Данные о позиции видео, устройстве и действиях пользователя обновляются в реальном времени. Если вы ставите фильм на паузу на телефоне, то с легкостью возобновите просмотр на планшете или ноуте. Для некоторых задач EVCache работает как primary store. Например, персонализированные домашние страницы формируются ночью для каждого пользователя, а затем сохраняются в кэше. Больше о принципах работы – читайте тут.

Именно использование EVCache позволяет Netflix поддерживать масштабируемость и предоставляет комфортный UX даже при огромной аудитории и высоких нагрузках.

👩‍💻 Подробнее о характеристиках и релизах – читайте на GitHub

#архитектура #devops #кэширование
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥105👍4
Последний новостной дайджест...

... этой зимы. Сегодня разберем, как эволюционирует система алертинга в Grafana 12.4.0, что меняется после обновлений API в GitHub Actions, почему масштабирование etcd остаётся критическим фактором в Kubernetes.

Grafana 12.4.0 и прозрачное управление алертами
Выкатили релиз версии 12.4.0, в которую внесли изменения в Grafana Alerting, политики RBAC и datasource-стек. В обновлении представили политики routing (policy selector, вкладки конфигурации, навигация), импорт конфигураций через Wizard первой итерации. Из важного – добавили метки алертов в аннотации, улучшили тестирование receiver’ов (в сторону Kubernetes-style API), а также исправили неточности во временных расчетах. В версии 12.4.0 оптимизировали преобразование regex в label matchers для Prometheus, ввели поддержку serverless для Elasticsearch и переменных в Query editor для PostgreSQL и MySQL. Работа с метриками и логами стала более предсказуемой. Ознакомиться с релизом – здесь.

Что нового в GitHub Actions?
Внесли обновления в API workflow dispatch: теперь при ручном запуске вы получаете идентификатор и ссылки на созданный run. Благодаря параметру return_run_details вам возвращаются метаданные workflow_id, run API URL и workflow URL. Эта функция также поддерживается в GitHub CLI, начиная с версии v2.87.0. Представленные обновления значительно облегчили автоматизацию, больше никакого кастомного трекинга :) Подробнее – тут и в GitHub Actions documentation.

Что меняется с etcd при масштабировании в Kubernetes?
Если вы годами разворачиваете кластеры Kubernetes и всё еще не задумались о etcd – статья от Learnkube для вас. В Kubernetes только API-сервер напрямую взаимодействует с etcd. Планировщик, менеджер контроллеров, kubelet, kubectl и ваши операторы взаимодействуют с Kubernetes через API-сервер. Так, etcd в статье назвали частным бэкэндом. Etcd предоставляет строгую согласованность (strong consistency) через Raft, но имеет ограничения в масштабируемости. Зачем мониторить размер БД, нагрузку watch и поведение API-сервера – тут.

На портале DBI Service выкатили RAG-серию из двух статей.
В первой части сосредоточились на версионировании эбмеддингов и событийно-ориентированной архитектуре. Вместо полной переиндексации эмбеддингов Адриан Обернессер рекомендует использовать событийно-ориентированный (event-driven) подход для ИИ workflow: обновляйте только то, что меняется. Так, вы экономите деньги и снижаете нагрузку. В статье рассматриваются PostgreSQL, pgvector, Apache Flink и Debezium – но подход применим к любому векторному стеку. Всего представлено 3 уровня практических решений, под задачи проектов разной сложности. Читайте здесь.

Во второй части подборки Адриан Обернессер демонстрирует внедрение версионирования эмбедингов на примере реальной базы данных Википедии из репозитория pgvector_RAG_search_lab : 25 000 статей, триггеры, OpenAI API calls, реальные числа. Обязательно к прочтению для всех, кто хочет разобраться, как выглядят решения SKIP и EMBED на базе данных, как SELECT FOR UPDATE SKIP LOCKED работает c concurrent worker-ами и что интересного в отчёте об актуальности данных на практике. Рассмотреть – здесь. Весь код – в лабе.

#devops #opensource #postgresql #новостнаяподборка
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍4🔥4🤔1
🤖«Я сыт по горло постами о магии ИИ»: агенты в разработке

В эту пятницу поговорим о наболевшем. Разработчик проекта iximiuz Labs поделился своим опытом работы с ИИ-агентами для генерации кода. Иван Величко не верит в сказки: невозможно написать абсолютно что угодно в кратчайшие сроки, без каких-либо знаний о домене или опыта программирования. В статье инженер поделился опытом работы с Claude Code и отметил, насколько инструмент реально ускоряет разработку и где дает сбой.

Оказалось, что агенты отлично работают с четко поставленными задачами, но не справляются со сложными требованиями. Например, при создании клиента для Google Cloud Storage с поддержкой SSE-C агенты долго не могли разобраться с заголовками и аутентификацией, а простая фронтенд-фича, редизайн дашборда, потребовала точных указаний и исправлений.

👀Вывод автора: агенты – мощный инструмент, но только в руках опытного разработчика, который умеет правильно декомпозировать задачи и проверять результат. Полностью автономная работа пока невозможна, особенно для сложных систем в проде.

Подробнее о плюсах и ограничениях работы с ИИ-агентами – в статье.

#DevOps #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥7👍54
7 утилит Linux, которые ускорят работу в терминале

Всем DevOps! 🖖С началом весны возвращается заряд продуктивности. Сегодня собрали в подборку утилит CLI в Linux, которые ускорят загрузку, предоставят удобный мониторинг и просмотр файлов:

ripgrep (rg) – утилита для поиска по коду, логам, конфигам, инфраструктурным репозиториям. Быстрее grep, игнорирует файлы в .gitignore.
Установить на Debian/Ubuntu: sudo apt install ripgrep 
Репо: BurntSushi/ripgrep

fzf (Fuzzy Finder) – поисковая утилита для быстрого поиска файлов в больших репо, истории, выбора Git-веток и pod'ов
Установить на Debian/Ubuntu: sudo apt install fzf
Репо: junegunn/fzf

pv (Pipe Viewer) – утилита для просмотра прогресса в пайплайнах. Позволяет отследить индикатор прогресса, ожидаемое время завершения и скорость операций. Полезен для копирования больших файлов, tar/backup операций, при миграции данных и в CI скриптах.
Пример:

pv largefile.iso > /backup/largefile.iso

Подробнее – тут

aria2 — быстрый загрузчик (HTTP/FTP/BitTorrent), умеет разбивать загрузку на части и качать параллельно.
Пример использования:
aria2c -x4 http://example.com/large-iso-file.iso
Репо: aria2/aria2

duf — удобная альтернатива df: цветная табличка, графы с группировкой устройств.
Репо: muesli/duf

plocate — утилита для быстрого индексного поиска файлов (альтернатива mlocate )
Обновление базы: sudo updatedb; поиск: locate config
Подробнее – тут

🚀Желаем продуктивной недели! Делитесь вашей подборкой в комментариях.

#devops #linux
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍11🔥75
Сезоны сменяют друг друга, а наш дайджест выходит по расписанию.

👀Инцидент Trivy
1 марта зафиксировали атаку ИИ-бота: hackerbot-claw получил доступ к репозиториям в GitHub Actions. Пострадали несколько проектов Microsoft, DataDog и CNCF, а репозиторий Trivy был переименован в `aquasecurity/private-trivy `и вместо публичного кода был запушен пустой репо, массово удалены релизы, артефакты и обсуждения. Об инциденте – тут, а также в обсуждении.

На GitLab вышел патч-релиз 18.9.1, 18.8.5, 18.7.5
В релизе представлены исправления для обеспечения безопасности. Включили защиту от CVE-2026-0752 в Mermaid, и несколько DoS уязвимостей в контейнерах, Jira и обработке merge request’ов (CVE-2025-14511, CVE-2026-1662, CVE-2026-1388). Также устранили проблемы при лимите запросов в импортере Bitbucket Server, создании переменных для CI джобов и контролем доступа в пакетных репозиториях. Обратите внимание при обновлении: на одиночных nod-ах переход займет время, ожидайте downtime, на на множественных – применяйте принцип zero-downtime. Подробнее – на GitHub.

Шон Вэбб отчитался о проделанной в феврале 2026 в HardenedBSD.
Большая часть времени ушла на расследование kernel crash в ветке 15-STABLE. Ожидаем новых сборок на этой неделе или в рамках обновления 1 апреля 2026. По проекту mesh-сетей (Meshtastic + Reticulum + HardenedBSD) ведется работа по созданию proof-of-concept. Также опубликовали скрипт на Python для exec-over-meshtastic. В части инфраструктурой разработки приняли решение о постепенной миграции части репозиториев с self-hosted GitLab в Radicle. Отчёт– здесь.

На портале Percona вышел отчёт о серии уязвимостей, затрагивающих все версии Valkey.
Часть проблем исправлена в версиях valkey-server и valkey-bloom, поэтому мы настоятельно рекомендуем обновиться. Исправления затронули CVE-2025-67733, ошибки обработки символов null в скриптах Lua, CVE-2026-21864, некорректная обработка ошибок парсинга RDB в модулях, CVE-2026-21863, некорректной валидации пакетов в cluster bus и CVE-2026-27623, DoS перед аутентификацией.
Без обновления можете:
⁃ ограничить команды EVAL, EVALSHA, FCALL, RESTORE через ACL
⁃ изолировать cluster bus порт
⁃ проверить модули на корректную обработку IO-ошибок
Подробнее – здесь.

Не мигрируйте, пока не ознакомитесь
В блоге Kubernetes описали поведение Ingress-NGINX, которое важно учитывать при миграции на Gateway API. Автор уточняет, что речь пойдет исключительно об этом контроллере, а не NGINX Ingress от F5. Из основных особенностей работа с префиксами regex в Ingress-NGINX, которые не учитывает регистр. При переносе может пострадать маршрутизация. Следующая особенность – use-regex влияет на все Ingress с теми же хостами. Если хотя бы один Ingress для хоста содержит use-regex: "true", все пути считываются как regex. В Gateway API exact остаётся exact. После миграции такие запросы начнут возвращать 404. Также в статье упоминают автоматические редиректы и нормализацию URL перед matching. Как безопасно переехать – указали тут.

#devops #gitlab #valkey #kubernetes #новостная_подборка
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍6🔥42🤔1