DevOps FM – Telegram

DevOps FM

5.3K subscribers

737 photos

15 videos

10 files

847 links

♾️ Канал для тех, кто живёт слиянием разработки и эксплуатации (DevOps) и сис. администрированием.

Новости, статьи, практики, инструменты и развлекательный контент. Cloud Native, Docker, Kubernetes, БД, мониторинг и пр.

Анастасия @cryptographyinu

Download Telegram

About

Blog

Apps

Platform

5.3K subscribers

От пикселей до персонажа: ASCII-маскот в полёте

В эту пятницу знакомимся с интересным проектом от команды GitHub

👩‍💻 GitHub Copilot CLI получил анимированный ASCII-баннер, который оживляет терминал и превращает запуск CLI в перформанс.
Неочевидно, но анимация оказалась квестом: 3 секунды, 20 кадров и более 6 000 строк TypeScript. Зато! Маскот Copilot теперь красиво летает прямо в вашей консоли :)
У терминалов нет канвы, цвета ANSI ведут себя по-разному, а экранные читалки воспринимают быстро меняющиеся символы как шум. Поэтому анимация сделана в формате opt-in, цвета применяются через семантические роли (eyes, goggles, border и т.д.), а рендеринг через Ink. И баннер работает на разных ОС, терминалах, поддерживает светлые и тёмные темы, не мешает работать с CLI. К тому же, архитектура позволяет легко добавлять новые анимации, а инструмент вдохновил на создание open-source проекта ASCII Motion.

📔

Читаем, смотрим, тестируем и вдохновляемся инженерным мастерством команды GitHub!

#devops #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤6👍5🔥4

2.16K views13:01

⚡ Как Netflix удерживает внимание миллионов с помощью кэша

🖖В этот понедельник поговорим о высоких нагрузках. В прошлом мы уже рассмотрели, как устроена архитектура стримингового сервиса. Ежедневно Netflix обслуживает сотни миллионов пользователей по всему миру, и скорость публикации напрямую влияет на удержание. Ключевым инструментом статье от NewsLetter назвали EVCache – распределённое in-memory хранилище.

💻EVCache используется для разных задач, каждая из которых напрямую влияет на производительность. Саураб Дашора в статье описал принцип работы look-aside cache для часто используемых данных. Например, рекомендации или история просмотров. Когда приложение запрашивает данные, то проверяет кэш, если данных там нет — обращается к БД. Так, при открытии домашней страницы Netflix рекомендации и миниатюры подгружаются почти моментально.

Хранилище вмещает transient data, которая содержит информацию о текущей сессии. Данные о позиции видео, устройстве и действиях пользователя обновляются в реальном времени. Если вы ставите фильм на паузу на телефоне, то с легкостью возобновите просмотр на планшете или ноуте. Для некоторых задач EVCache работает как primary store. Например, персонализированные домашние страницы формируются ночью для каждого пользователя, а затем сохраняются в кэше. Больше о принципах работы – читайте тут.

Именно использование EVCache позволяет Netflix поддерживать масштабируемость и предоставляет комфортный UX даже при огромной аудитории и высоких нагрузках.

👩‍💻 Подробнее о характеристиках и релизах – читайте на GitHub

#архитектура #devops #кэширование

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥10❤6👍5

2.09K views13:01

Последний новостной дайджест...

... этой зимы. Сегодня разберем, как эволюционирует система алертинга в Grafana 12.4.0, что меняется после обновлений API в GitHub Actions, почему масштабирование etcd остаётся критическим фактором в Kubernetes.

⏺

Grafana 12.4.0 и прозрачное управление алертами
Выкатили релиз версии 12.4.0, в которую внесли изменения в Grafana Alerting, политики RBAC и datasource-стек. В обновлении представили политики routing (policy selector, вкладки конфигурации, навигация), импорт конфигураций через Wizard первой итерации. Из важного – добавили метки алертов в аннотации, улучшили тестирование receiver’ов (в сторону Kubernetes-style API), а также исправили неточности во временных расчетах. В версии 12.4.0 оптимизировали преобразование regex в label matchers для Prometheus, ввели поддержку serverless для Elasticsearch и переменных в Query editor для PostgreSQL и MySQL. Работа с метриками и логами стала более предсказуемой. Ознакомиться с релизом – здесь.

⏺

Что нового в GitHub Actions?
Внесли обновления в API workflow dispatch: теперь при ручном запуске вы получаете идентификатор и ссылки на созданный run. Благодаря параметру return_run_details вам возвращаются метаданные workflow_id, run API URL и workflow URL. Эта функция также поддерживается в GitHub CLI, начиная с версии v2.87.0. Представленные обновления значительно облегчили автоматизацию, больше никакого кастомного трекинга :) Подробнее – тут и в GitHub Actions documentation.

⏺

Что меняется с etcd при масштабировании в Kubernetes?
Если вы годами разворачиваете кластеры Kubernetes и всё еще не задумались о etcd – статья от Learnkube для вас. В Kubernetes только API-сервер напрямую взаимодействует с etcd. Планировщик, менеджер контроллеров, kubelet, kubectl и ваши операторы взаимодействуют с Kubernetes через API-сервер. Так, etcd в статье назвали частным бэкэндом. Etcd предоставляет строгую согласованность (strong consistency) через Raft, но имеет ограничения в масштабируемости. Зачем мониторить размер БД, нагрузку watch и поведение API-сервера – тут.

⏺

На портале DBI Service выкатили RAG-серию из двух статей.
В первой части сосредоточились на версионировании эбмеддингов и событийно-ориентированной архитектуре. Вместо полной переиндексации эмбеддингов Адриан Обернессер рекомендует использовать событийно-ориентированный (event-driven) подход для ИИ workflow: обновляйте только то, что меняется. Так, вы экономите деньги и снижаете нагрузку. В статье рассматриваются PostgreSQL, pgvector, Apache Flink и Debezium – но подход применим к любому векторному стеку. Всего представлено 3 уровня практических решений, под задачи проектов разной сложности. Читайте здесь.

Во второй части подборки Адриан Обернессер демонстрирует внедрение версионирования эмбедингов на примере реальной базы данных Википедии из репозитория pgvector_RAG_search_lab : 25 000 статей, триггеры, OpenAI API calls, реальные числа. Обязательно к прочтению для всех, кто хочет разобраться, как выглядят решения SKIP и EMBED на базе данных, как SELECT FOR UPDATE SKIP LOCKED работает c concurrent worker-ами и что интересного в отчёте об актуальности данных на практике. Рассмотреть – здесь. Весь код – в лабе.

#devops #opensource #postgresql #новостнаяподборка

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤7👍4🔥4🤔1

2.03K views13:54

🤖«Я сыт по горло постами о магии ИИ»: агенты в разработке

В эту пятницу поговорим о наболевшем. Разработчик проекта iximiuz Labs поделился своим опытом работы с ИИ-агентами для генерации кода. Иван Величко не верит в сказки: невозможно написать абсолютно что угодно в кратчайшие сроки, без каких-либо знаний о домене или опыта программирования. В статье инженер поделился опытом работы с Claude Code и отметил, насколько инструмент реально ускоряет разработку и где дает сбой.

Оказалось, что агенты отлично работают с четко поставленными задачами, но не справляются со сложными требованиями. Например, при создании клиента для Google Cloud Storage с поддержкой SSE-C агенты долго не могли разобраться с заголовками и аутентификацией, а простая фронтенд-фича, редизайн дашборда, потребовала точных указаний и исправлений.

👀

Вывод автора: агенты – мощный инструмент, но только в руках опытного разработчика, который умеет правильно декомпозировать задачи и проверять результат. Полностью автономная работа пока невозможна, особенно для сложных систем в проде.

Подробнее о плюсах и ограничениях работы с ИИ-агентами – в статье.

#DevOps #AI

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥7👍5❤4

2.26K views13:01

6 утилит Linux, которые ускорят работу в терминале

Всем DevOps! 🖖С началом весны возвращается заряд продуктивности. Сегодня собрали в подборку утилит CLI в Linux, которые ускорят загрузку, предоставят удобный мониторинг и просмотр файлов:

⏺

ripgrep (rg) – утилита для поиска по коду, логам, конфигам, инфраструктурным репозиториям. Быстрее grep, игнорирует файлы в .gitignore.
Установить на Debian/Ubuntu: sudo apt install ripgrep
Репо: BurntSushi/ripgrep

⏺

fzf (Fuzzy Finder) – поисковая утилита для быстрого поиска файлов в больших репо, истории, выбора Git-веток и pod'ов
Установить на Debian/Ubuntu: sudo apt install fzf
Репо: junegunn/fzf

⏺

pv (Pipe Viewer) – утилита для просмотра прогресса в пайплайнах. Позволяет отследить индикатор прогресса, ожидаемое время завершения и скорость операций. Полезен для копирования больших файлов, tar/backup операций, при миграции данных и в CI скриптах.
Пример:


pv largefile.iso > /backup/largefile.iso

Подробнее – тут

⏺

aria2 — быстрый загрузчик (HTTP/FTP/BitTorrent), умеет разбивать загрузку на части и качать параллельно.
Пример использования:
aria2c -x4 http://example.com/large-iso-file.iso
Репо: aria2/aria2

⏺

duf — удобная альтернатива df: цветная табличка, графы с группировкой устройств.
Репо: muesli/duf

⏺

plocate — утилита для быстрого индексного поиска файлов (альтернатива mlocate )
Обновление базы: sudo updatedb; поиск: locate config
Подробнее – тут

🚀Желаем продуктивной недели! Делитесь вашей подборкой в комментариях.

#devops #linux

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍11🔥7❤5

2.14K viewsedited 13:01

Сезоны сменяют друг друга, а наш дайджест выходит по расписанию.

👀

Инцидент Trivy
1 марта зафиксировали атаку ИИ-бота: hackerbot-claw получил доступ к репозиториям в GitHub Actions. Пострадали несколько проектов Microsoft, DataDog и CNCF, а репозиторий Trivy был переименован в `aquasecurity/private-trivy `и вместо публичного кода был запушен пустой репо, массово удалены релизы, артефакты и обсуждения. Об инциденте – тут, а также в обсуждении.

⏺

На GitLab вышел патч-релиз 18.9.1, 18.8.5, 18.7.5
В релизе представлены исправления для обеспечения безопасности. Включили защиту от CVE-2026-0752 в Mermaid, и несколько DoS уязвимостей в контейнерах, Jira и обработке merge request’ов (CVE-2025-14511, CVE-2026-1662, CVE-2026-1388). Также устранили проблемы при лимите запросов в импортере Bitbucket Server, создании переменных для CI джобов и контролем доступа в пакетных репозиториях. Обратите внимание при обновлении: на одиночных nod-ах переход займет время, ожидайте downtime, на на множественных – применяйте принцип zero-downtime. Подробнее – на GitHub.

⏺ Шон Вэбб отчитался о проделанной в феврале 2026 в HardenedBSD.
Большая часть времени ушла на расследование kernel crash в ветке 15-STABLE. Ожидаем новых сборок на этой неделе или в рамках обновления 1 апреля 2026. По проекту mesh-сетей (Meshtastic + Reticulum + HardenedBSD) ведется работа по созданию proof-of-concept. Также опубликовали скрипт на Python для exec-over-meshtastic. В части инфраструктурой разработки приняли решение о постепенной миграции части репозиториев с self-hosted GitLab в Radicle. Отчёт– здесь.

⏺На портале Percona вышел отчёт о серии уязвимостей, затрагивающих все версии Valkey.
Часть проблем исправлена в версиях valkey-server и valkey-bloom, поэтому мы настоятельно рекомендуем обновиться. Исправления затронули CVE-2025-67733, ошибки обработки символов null в скриптах Lua, CVE-2026-21864, некорректная обработка ошибок парсинга RDB в модулях, CVE-2026-21863, некорректной валидации пакетов в cluster bus и CVE-2026-27623, DoS перед аутентификацией.
Без обновления можете:
⁃ ограничить команды EVAL, EVALSHA, FCALL, RESTORE через ACL
⁃ изолировать cluster bus порт
⁃ проверить модули на корректную обработку IO-ошибок
Подробнее – здесь.

⏺

Не мигрируйте, пока не ознакомитесь
В блоге Kubernetes описали поведение Ingress-NGINX, которое важно учитывать при миграции на Gateway API. Автор уточняет, что речь пойдет исключительно об этом контроллере, а не NGINX Ingress от F5. Из основных особенностей работа с префиксами regex в Ingress-NGINX, которые не учитывает регистр. При переносе может пострадать маршрутизация. Следующая особенность – use-regex влияет на все Ingress с теми же хостами. Если хотя бы один Ingress для хоста содержит use-regex: "true", все пути считываются как regex. В Gateway API exact остаётся exact. После миграции такие запросы начнут возвращать 404. Также в статье упоминают автоматические редиректы и нормализацию URL перед matching. Как безопасно переехать – указали тут.

#devops #gitlab #valkey #kubernetes #новостная_подборка

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍8🔥4❤2🤔1

1.94K viewsedited 13:15

Атака в GitHub Actions: Trivy, Microsoft, DataDog, CNCF

👩‍💻 ИИ-бот hackerbot-claw получил доступ к репозиториям в GitHub Actions, недавно писали об этом – здесь. Пользователи Reddit поделились мнением об атаке и собрали подборку советов для обеспечения безопасности в CI/CD.

Friendly-Ask6895
pull_request_target – это убийца. Проблема существует столько лет, но никто не хочет проверять конфиги, пока не стало поздно. Удивительно, что понадобился ИИ-бот, чтобы инженеры позаботились о безопасности в CI/CD.

Emotional-Drawing761
Безопасность в GitHub Actions о-очень важна, это порог входа. В нашей компании внедрили ротацию токенов, придерживаемся строгих политик для пайплайнов. Как в других компаниях обеспечивают безопасность?

Extra-Pomegranate-50
Комбо pull_request_target + checkout-of-fork уже много лет как оружие массового поражения, но атака на Trivy и Datadog все равно удивила.
Я, конечно, больше думаю о цепочках поставок. Если извлекли бинарники Trivy, запушили пустой репо, то сканер безопасности сам по себе становится вектором атаки.

davidadamns
Несмотря на негативные последствия, урок вышел ценным:
1. Проверяйте скачанные бинарники и контейнерные образы, подтверждайте подписи через Cosign/Sigstore.
2. Держите резервные инструменты безопасности (Checkov, Grype).
3. Используйте OIDC-токены вместо долгоживущих секретов.
4. Проводите аудит в GitHub Actions: не используйте pull_request_target с кодом форков, следите за ${{ }} в run.
5. Настройте автоматическую проверку зависимостей перед запуском.
6. Все образы должны быть подписаны.
7. Непроверенный код запускайте в изолированных средах (gVisor, Firecracker).
8. Включите аудит логов с хранением на несколько дней.

👩‍💻 И подборка репо:
zizmorcore/zizmor
boostsecurityio/poutine

Весь тред – найдете здесь.

👀А как вы следите за безопасностью в CI/CD? Делитесь опытом в комментариях!

#devops #reddit #инцидент

Please open Telegram to view this post

VIEW IN TELEGRAM

5👍7❤3🔥3

2K views13:04

Дайджест в DevOps FM!

☀️Солнечная среда и свежие релизы. Что может быть лучше в середине рабочей недели?

⏺

Весеннее обострение или атака в цепочке поставок.
На этот раз в PyPI нашли вредонос библиотеки LiteLLM. Были украдены API-ключи для подключения к OpenAI, Anthropic и другим провайдерам. Проблема коснулась SSH-ключей, конфигураций Kubernetes, Docker, токенов AWS, GCP, Azure, секретов непрерывной интеграции и доставки (CI/CD). Безопасная версия доступна с 22 марта. Атака – одна из серии от команды PCP. Если у вас были установлены версии LiteLLM 1.82.7 или 1.82.8, рекомендуем заменить API-ключи и проверить пайплайны в CI/CD.

Подробнее – на GitHub, а разбор мартовских атак от команды PCP – в блоге Wiz.

⏺Вы в зоне риска, если работали с aquasec/trivy, применяли теги версий 0.69.4, 0.69.5, or 0.69.6 или последней версии с 19 по 23 марта. В блоге Docker дали рекомендации для проверки окружения: найдите скомпрометированный образ Trivy по его digest’ам, удалите все затронутые образы, обновитесь до aquasec/trivy:0.69.3, а затем проведите полную ротацию секретов на всех системах, где этот образ мог работать.

Пошаговая инструкция – здесь.

⏺

CNCF опубликовали отчёт за Q1: что нового?
Сообщество значительно приросло – с 15.6 до 19.9 миллионов, что составляет 28% за 6 месяцев. Облачный гибрид – самый популярный формат, 34% разработчиков включили его в рабочий цикл. Тенденция связана с новыми политиками регуляторов. Практики платформенной инженерии, инженерии хаоса и работы со множеством управляемых кластеров внедрили 88% разработчиков. В сфере ИИ до 7.3 миллионов специалистов работают в рамках подхода Cloud Native. Подробности – в отчёте.

⏺Выкатили релиз KubeVirt v1.8 с поддержкой Kubernetes v1.35. В нём улучшили политики конфиденциальности для работы с ВМ, представили прослойку Hypervisor Abstraction для работы со множественными уровнями системы виртуализации (бэкенды гипервизора) за пределами KVM, а так же включили ворклоады ИИ и HPC. Теперь KubeVirt лучше понимает, как устроены CPU, память и PCIe-устройства на хосте. Все обновления в SIG – в заметках о релизе и обзоре от CNCF.

⏺Дождались – Ingress2Gateway 1.0, ассистент при миграции. Основное изменение – поддержка более 30 аннотаций вместо 3 (CORS, TLS между балансировщиком, сопоставление с регулярным выражением (regex matching)). В Ingress2Gateway 1.0 улучшили форматирование и систему уведомлений. Теперь не нужно тратить время на поиск подводных камней и устранение ошибок в конфигах. Пошаговый туториал оставили – здесь.

⏺

Kyverno, инструмент политики как кода, прошел все уровни ревью на GitHub. В честь "выпуска" Брайан Грант, СТО CofigHub-а, выкатил статью с описанием основных функций: ограничение ресурсов Kubernetes на примере запрета использования :latest тега, проверку политик и работу триггеров.
Всё интересное – здесь.

⏺DataDog описали архитектуру Karpenter, автоскейлера кластеров Kubernetes. Логика сервиса учитывает пропускную способность, оптимизирует потребление ресурсов и улучшает работу приложений. Речь идет о поддержке оптимизации NodePool-ум, агностическим провайдером, и учёте особенностей инфрастуктуры облачных окружений провайдером NodeClass.
Подробнее об инструменте наблюдаемости – тут.

#devops #инциденты #kubernetes #cncf #новостная_подборка

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍7❤5🔥4

1.62K views13:00

Пятничное чтиво от DevOps FM

💬 Неделя подходит к концу, а смельчаки-инженеры вовсю готовятся к развертыванию (ни пуха!). Сегодня обсудим вечную дилемму – железо или облако? Внизу вынесли популярные мнения пользователей Reddit, а весь тред оставили – здесь.

BuffaloJealous2958
Многие из тех, кто вырос на железе, скучают по ощущениям от настройки. Раньше ты мог встроить серверы, затюнить Linux руками, знать как и где протекают рабочие процессы. В облаке ощущение, что предоставляешь управляемые услуги и пытаешься не сжечь весь бюджет компании за месяц.
Облако никуда не денется, но и on-prem решения тоже. Всё меняется, от действий регуляторов до развития гибридных решений.

CaptainPonahawai

Ещё важно смотреть на масштаб и текущие цели компании. По личному опыту, на работе всё в облаке, тк нет ни ресурсов, ни времени для поддержания железа.

AlterTableUsernames

Да вы, сэр, зрите в корень. В Европе сейчас растущий спрос на личные облака, железо и в принципе уход с аренды.

rvm1975

Глобально нет никакой разницы между EC2 и VMware/Proxmox VM. Практически те же компоненты, типа хранилищ и тд. Разница лишь в цене за ошибку и ведению FinOps.

red_00

Облако дает доступ к управляемым услугам. Так, в работе я сосредотачиваюсь на архитектуре, безопасности и не думаю о поддержке.

👀Вопрос остается открытым: что выбрать? Если хотите узнать чуть больше – смотрите запись выступления тех. руководителя НИКСИС | NIXYS Петра Рукина.

Хороших выходных и спокойных смен!

#devops #облако #железо #reddit

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍6❤4🔥3

1.89K views13:00

💻

История про GitOps, платформы и Kubernetes

Всем DevOps! Сегодня делимся обзором на kubara, фреймворка для построения платформы Kubernetes на GitOps. Артём Лайко в статье портала Medium рассказывает, как kubara помогает платформенным командам уйти от разрозненных Helm-чартов, Terraform-модулей и повторяющихся решений к единой структуре.

В статье kubara представлен как:
• единый бинарник CLI на Go
• фреймворк для платформы Bootstrap
• основа для hub-and-spoke мультикластерной архитектуры
• инструмент, который позволяет поднять рабочую платформу за ~30 минут

Особое внимание уделили формату:
Инструменты, дашборды, операторы и менеджеры (Argo CD, Kyverno, Prometheus, Grafana, Loki, Traefik) собираются в единый цикл GitOps для декларативного управления. С помощью kubara можно строить стек под платформу и требования вашей команды.

👩‍💻 Обзор kubara – тут, документация здесь и репо.

Желаем вам вдохновения и ровных Application-синков! 👍

#devops #kubernetes #gitops

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍4❤1🔥1

1.72K views13:01

This media is not supported in your browser

VIEW IN TELEGRAM

🫯 Модель запустили. А как теперь жить с ней в production?

26 июня в Новосибирске соберёмся на закрытой встрече DevOps Lab: ML in Production: поговорить о том, что происходит после того, как модель попадает в production.

В программе:

🟡 Как AI-агенты помогают DevOps-инженеру справляться с задачами команды из 50 разработчиков.

🟡 Как запускать приватные LLM в Kubernetes: KServe, Modelcar, OCI, оптимизация GPU и ускорение инференса.

🟡 Интерактивный разбор production-инцидентов: масштабирование, наблюдаемость и безопасность ML-сервисов.

Без маркетинга и теории — только практические кейсы, вопросы и обмен опытом.

📍 26 июня, 18:00
📍 Новосибирск, офис Nixys (офлайн)
📍 Количество мест ограничено

Регистрация: [ссылка]

#devops #mlops #kubernetes #sre #nixys

3❤6👍6🔥4

2.23K viewsedited 09:52

Подвели итоги DevOps Lab: как это было

🤩В прошлую пятницу прошел первый митап серии DevOps Lab: ML in Production. В офисе Никсис собрались инженеры, руководители команд и технические лидеры Новосибирска, чтобы обсудить работу агентов и ML-сервисов в производственной среде.

Спешим поделиться атмосферой обсуждений и споров в кругу своих. И самое важное – говорим спасибо каждому, кто стал частью первого DevOps Lab в Сибири. Надеемся, мы стали местом, где можно открыто обсуждать реальные кейсы, обмениваться опытом и искать решения вместе.

🟡Совсем скоро выйдем в эфир с записью выступления с разбором рабочей архитектуры приватных LLM на базе Kubernetes.

А пока желаем продуктивной недели без инцидентов :)

#devops #никсис #митап

Please open Telegram to view this post

VIEW IN TELEGRAM

3🔥8👍6❤5

2.03K views13:00

👾Ловим покемонов в кластерах

Пятница, конец рабочей недели и Pokémon в Kubernetes. Разработчик Анубхав Саньял вдохновился играми для Game Boy и любовью к DevOps. Так, на свет появился Project Yellow Olive, TUI-симулятор на языке Python. Подробнее об архитектуре – тут.

Вместо покемонов, вам предстоит анализировать работу покеподов, устранять проблемы K8S в локальном кластере Minikube, продвигаясь по аркам:

⏺

Oakwood Meadows с фокусом на подах

⏺

Signal Town с практикой работы с сетью и взаимодействием между компонентами (DNS, Ingress)

⏺

Gold Rush City и упор на политики безопасности (RBAC)

⏺

Sakura Harbour с развертыванием, масштабированием и обновлениями приложений.

Последняя локация появилась недавно, и включает масштабирование реплик, работу с ReplicaSet, сценариями отката (rollback) и отладкой неудачных развёртываний.

Желаем хороших выходных и успешного прохождения!

#DevOps #kubernetes #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤7🔥5👍3

2.29K views13:00

Как Codex обнаружил регрессию в Kubernetes

👩‍💻 Начинаем рабочую неделю с фотоотчёта DevOps Lab и рабочего кейса портала HeyOnCall.

После обновления Kubernetes до версии 1.36 Майк Роббинс заметил проблему на небольшом тестовом кластере. kubelet постепенно «съедал» всю память. Поды работали нормально, но pprof обнаружил миллион объектов контекста.

Проблема возникла из-за небольшого регресса в коде startPodSync, и при каждом цикле синхронизации создавался новый context.WithCancel(), а старый никогда не освобождался. С Codex Роббинс быстро обнаружил проблемный коммит, подготовил исправление, прошёл ревью и добился включения патча в основную ветку и бэкпорта для релиза 1.36.3.

🔵В статье о том, как найти утечку памяти в kubelet с Go pprof и сократить потребление с 1 ГБ до 110 МБ, почему подобные ошибки сложно поймать на тестировании и какая строка кода может привести к утечке сотен мегабайт памяти на каждой ноде.

➡️

А здесь мы оставили фото участников лабы, делимся атмосферой. Отмечайте @DevOps_FM в соц.сетях и расскажите о своих впечатлениях – тут

💙

#kubernetes #devops #kubelet #никсис

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍5❤4🔥4

2.59K views13:00

Новостной дайджест от DevOps FM!

🔔Выходим в эфир с подборкой новостей и практических разборов.

⏺ В блоге Sysdig опубликовали отчёт по безопасности. В июне среди причин инцидентов выделили ошибки конфигурации, свободный доступ к открытым ресурсам в облаке.

Также в отчёте разобрали атаки от 8 июня на Tchap с кражей 13,5 ГБ данных, и от 11 июня с выводом 1,3 ТБ данных. В первом случае в открытый доступ попали email-адреса и сведения об организациях более 73 тыс. из 600 тыс. учетных записей. Детали отчёта – здесь.

⏺ В понедельник вышел релиз OpenSSH версии 10.4. Из нового добавили экспериментальную поддержку схемы подписи ML-DSA 44 + Ed25519, включили реализацию на основе NFA и ужесточили требования к протоколу SSH при обмене ключами. Усилили безопасность и устранили уязвимости в ssh(1), sshd(8), scp(1) и sftp(1). Подробнее об улучшениях – тут.

⏺ С релизом Docker Desktop 4.81.0 от 6 июля обновили Docker Compose до версии 5.2.0 и Docker Scout CLI v1.22.0. Также внесли исправления для работы с kind-кластерами, улучшили загрузку образов и устранили проблему с остановкой контейнеров. В новой версии Docker Desktop учитывает заданные таймауты вместо принудительного завершения через 1 секунду. Все изменения – здесь.

⏺ На портале FreeCodeCamp вышла статья о включении политик нулевого доверия в Kubernetes. Дестини Эрхабор подробно разбирает идентификацию рабочих нагрузок через SPIFFE, SPIRE и Cilium.

На примере Kind-кластера он показывает, почему традиционные политики безопасности, не работают в динамической среде Kubernetes, а также объясняет, как Cilium реализует аутентификацию (mTLS) без Sidecar. Демо – тут.

⏺На Info Q Мэтт Сондерс разобрал архитектуру HubSpot и рассказал, как компания масштабировала платформу семантического поиска до 20 млрд векторов.

Внутренняя платформа Vector as a Service (VaaS) работает поверх Qdrant и обеспечивает контроль доступа, версионирование данных и сбор обратной связи. Сейчас система обслуживает 38+ команд, включает 200+ индексов, 140+ кластеров в пяти регионах и двух окружениях, а пиковая нагрузка достигает 100 тыс. запросов в секунду.

Как HubSpot сократил время запуска кластеров с Kubernetes Operator читайте – здесь.

#новостная_подборка #devops #kubernetes #openssh #zerotrust

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍4❤3🔥3

2.36K views13:01

🚨 Что убивает этот под – разбор инцидента

Всем DevOps! В конце недели подготовили для вас кейс прямиком из производственной среды.

После выката нового ML-инференс-сервиса в Kubernetes поды один за другим уходят в CrashLoopBackOff. На первый взгляд кажется, что проблема в приложении. Но все ли так очевидно?


STATUS: CrashLoopBackOff

При этом в событиях Kubernetes видно:


Liveness probe failed:
connect: connection refused

А в логах контейнера:


Starting model server...
Loading model weights...
Loaded shard 1/4
Loaded shard 2/4
<SIGTERM received, shutting down>

И фрагмент Deployment:


livenessProbe:
  initialDelaySeconds: 10
  periodSeconds: 5
  failureThreshold: 3

👨‍💻Что здесь происходит? Почему сервис так и не успевает запуститься и оказывается в бесконечном CrashLoopBackOff?

Голосуйте в опросе ниже ⬇️

#devops #kubernetes #k8s #разборинцидента

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥4👍3❤2

1.16K views13:00

10 ошибок в CI/CD, которые замедляют работу инженеров

🔔В этот солнечный понедельник подготовили для вас подборку ошибок, собранную инженером портала DevOps.

Процессы непрерывной поставки связаны с эффективной работой пайплайнов. По мере роста числа репозиториев и циклов тестирования процессы СI/CD, которые работали на старте проекта, требуют инфраструктурных изменений.

В статье автор собрал 10 типичных ошибок в организации CI/CD. Вы узнаете, почему монолитные пайплайны приводят к росту времени сборок и как неправильная стратегия тестирования зависимостей и окружений влияет на стабильность доставки.

Какие ошибки вы бы добавили в этот список?

#devops #ci_cd #лучшие_практики

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤6👍4🔥3

1.45K viewsedited 13:03

Новостной дайджест от DevOps FM!

⌨️Делимся свежими новостями, туториалами и разборами инженерных практик.

⏺Microsoft выкатили патч с рекордным числом исправлений.

Вчера, 14 июля, компания представила релиз с 570 фиксами ОС Windows, обнаруженных искусственным интеллектом. Из них устранили 60 критических уязвимостей, включая CVE-2026-56155, ошибку сервисов активной директории, и CVE-2026-56164, уязвимость Microsoft SharePoint.

⏺В блоге Kubernetes вышла пошаговая инструкция по созданию собственного экспортера метрик, когда встроенных показателей CPU и памяти недостаточно. В ней разобрали, для каких задач нужен экспортер и как выбрать между Counter, Gauge и Histogram в зависимости от разных сценариев. В конце автор упомянул, как подготовить метрики для использования в HorizontalPodAutoscaler через Prometheus Adapter.

⏺ На Хабре вышло сравнение LLM в производственной среде. На примере использования llama.cpp, Gemma и Qwen в разных сценариях инженеры Wb-Tech решили:

• Перейти с Ollama на llama.cpp, чтобы получить больше контроля над инференсом, настройками, воспроизводимостью и структурированным выводом через GBNF
• Не использовать одну универсальную модель
• Использовать собственные конвееры для стабильных процессов
• Считать веса моделей критической зависимостью и фиксировать версии, хранить копии, не полагаться на внешние репозитории

Больше о бенчмарках и особенностях кейса – в статье.

⏺ Причины низкой производительности GitLab CI разобрал инженер компании OTUS. В статье он приводит 6 основных ошибок в работе: в кэшировании, распределении нагрузки между раннерами, выбором Docker-образов, параллелизацией, сборкой контейнеров и автоскейлингом. А также показывает, в чем измерять эффективность без усложнения инфраструктуры.

⏺ Брайан Грант, СТО ConfigHub, перечислил инструменты по управлению общими настройками рабочих нагрузок в Kubernetes.

Речь идет об автоматизированных проверках и изменениях в контексте безопасности, пробах, запасе количества упавших подов. В статье Брайн описывает подход Configuration as Data и дает готовые инструменты для анализа состояния кластеров, выявления нарушений. Подробности – на Medium.

#новостная_подборка #devops #kubernetes #llm #gitlab

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥4👍3❤2

1.17K views13:05

В эфире DevOps FM – срединедельный дайджест новостей и статей!

⏺

OpenAI заявили, что GPT-5.6 Sol и предрелизная модели причастны к атаке на Hugging Face от 16 июля.

Атака началась с конвейера обработки данных. Вредонос использовал 2 уязвимости, получил доступ к ноде, проник в несколько внутренних кластеров и завладел учетными данными в облаке.

В статье OpenAI сообщили, что модели работали в экспериментальном режиме для оценки функционала. Всё об инциденте – здесь, прогнозы от OpenAI – тут.

⏺Всего 1 комментарий в запросе на слияние Azure DevOps может настроить Агента-ревьюера против пользователя.

В MCP-сервере Microsoft обнаружена уязвимость c инъекцией промта через описание запроса на слияние. Команда Manifold Security присвоила ей тип confused deputy. Разбор причин и PoC найдете – здесь.

⏺На прошлой неделе выкатили релиз GitLab 19.2. В новой версии сосредоточились на автоматизации в бэклоге. Представили бета-функции сканирования и исправления, проверки рабочего цикла.

Теперь ИИ-агенты сканируют содержимое конвеера и открывают запрос на слияние, чтобы устранить уязвимости и ошибки в коде. Также упростили работу в терминале с GitLab Duo CLI и агентами в цепочке (Agentic Flows), которые в версии 19.2 вышли на уровень GA. Подробнее об изменениях – тут.

⏺20 июля состоялся релиз стабильной ветки Kata Containers 4.0.0, проекта с открытым исходным кодом от Intel, Hyper и OpenStac. Он отличается безопасностью, защиты от уязвимостей в ядре Linux, сочетает удобство контейнеров с изоляцией виртуальных машин.

В новой версии совершили переход на runtime с языка Go на Rust, включили поддержку гипервизоров Cloud Hypervisor, Firecracker, Dragonball, QEMU и улучшили интеграцию с Kubernetes и Docker. Особенности обновления оставили – здесь, а сравнение Kate Containers с Docker от NorthFlank – тут.

⏺На Хабре опубликовали заключительную часть из серии статей о защите CI/CD в проектах с открытым кодом. В первой сосредоточились на контроле доступа, разместили конфиги YAML и список улучшений для Cilium. Во второй дали инструкции по укреплению зависимостей, а в свежем переводе речь пошла о защите учётных данных и верификации, изоляции секретов CI.

#devops #инциденты #ии #gitlab #ci_cd

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥3❤21

877 views13:00

Как ИИ-агенты снижают нагрузку: кейсы

👨‍💻Переход к агентам начинается с осознания, что ИИ – лишь инструмент, а не универсальное решение. Вместо того чтобы держать 10 вкладок Claude Code в браузере, DevOps-инженер Евгений Дехтярёв создал автономную систему на базе оркестратора Paperclip и моделей Claude (Opus/Sonnet).

Ниже мы описали, как агенты справляются с задачами команды из 50 разработчиков и менеджеров.

⏺

Рутина под ключ

На практике агенты отлично справляются с рутиной для оптимизации времени и ресурсов. Так, Claude Code самостоятельно создает техническое задание с соблюдением логики и контекста и по нему выполняет простую инфраструктурную задачу.

За месяц 34 тикета были отданы агентам:

⁃ GitLab CI/ Runners – 7
⁃ Kubernetes – 6
⁃ Storage/S3 – 6
⁃ Базы данных – 6
⁃ VM lifecycle – 4
⁃ Бэкапы. Домены – 4
⁃ Мониторинг (Grafana) – 1

⏺

Разбор алертов

Получив RO доступ к stage- и prod-средам, а также общий контекст системы, SRE-агент запускает разбор ошибок в системе оповещений. После диагностики он ставит гипотезу о первопричине ошибки и сообщает о результатах в тредах Slack-каналов. Так, разработчики сразу видят RCA и могут сразу приступить к внесению изменений.

⏺

FinOps по нескольким облакам

Для оптимизации облачных расходов команда должна держать руку на пульсе и обосновывать каждое техническое решение. Агент-аналитик упрощает ведение отчетности, собирает биллинг по всем провайдерам. С его помощью Евгений обнаружил подключенные мониторинг и логирование от Google. После отказа от сервисов команда сэкономила 400$ ежемесячно.

👀Подробнее о ролях и задачах агентов, подводных камнях в работе – в записи выступления.

#devops #ai #агенты #кейс

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍6🔥6❤4🤣1

836 views13:03