DevOps FM

Заменят ли ИИ-агенты DevOps-а?

В прошлый понедельник мы уже рассказали, как настроить контур приватной LLM в Kubernetes. Сегодня обсудим, что делать с ML-инфраструктурой дальше и при чем здесь ИИ-агенты.

👀Представьте, вы один DevOps-инженер с командой из 50-ти разработчиков. Бесконечные алерты, тикеты, отчёты и менеджеры, которым просто посмотреть, куда ушли деньги в облаках – это лишь малая часть проблем за день. Нанять второго DevOps-а нельзя, но проблемы решать нужно.

На этой неделе, 26 июня на DevOps Lab: ML in Production инженер Евгений Дехтярёв поделится принципами работы open-source платформы Paperclip. С её помощью вы соберете свою команду ИИ-агентов и делегируете им часть работы.

В докладе Евгений расскажет:

• Как агент работает с задачей в тикет-системе
• Почему агенты собирают отчёт в субботу
• Что нужно агентам для просмотра алертов в Slack, проведения базовой диагностики

👨‍💻Если ресурсов команды не хватает, а делать надо много – приходите на DevOps Lab. Покажем, как сформировать свой штат из ИИ-агентов.

📍 26 июня, Новосибирск
📍 Регистрация: по ссылке

#никсис #devopslab #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥5👍3🤔3🤣3❤2

1.76K views13:03

DevOps FM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

🫯 Модель запустили. А как теперь жить с ней в production?

26 июня в Новосибирске соберёмся на закрытой встрече DevOps Lab: ML in Production: поговорить о том, что происходит после того, как модель попадает в production.

В программе:

🟡 Как AI-агенты помогают DevOps-инженеру справляться с задачами команды из 50 разработчиков.

🟡 Как запускать приватные LLM в Kubernetes: KServe, Modelcar, OCI, оптимизация GPU и ускорение инференса.

🟡 Интерактивный разбор production-инцидентов: масштабирование, наблюдаемость и безопасность ML-сервисов.

Без маркетинга и теории — только практические кейсы, вопросы и обмен опытом.

📍 26 июня, 18:00
📍 Новосибирск, офис Nixys (офлайн)
📍 Количество мест ограничено

Регистрация: [ссылка]

#devops #mlops #kubernetes #sre #nixys

3❤6👍6🔥4

2.23K viewsedited 09:52

DevOps FM

This media is not supported in your browser

VIEW IN TELEGRAM

0:36

1.78K views13:00

2🔥10❤6👍1

DevOps FM

Подвели итоги DevOps Lab: как это было

🤩В прошлую пятницу прошел первый митап серии DevOps Lab: ML in Production. В офисе Никсис собрались инженеры, руководители команд и технические лидеры Новосибирска, чтобы обсудить работу агентов и ML-сервисов в производственной среде.

Спешим поделиться атмосферой обсуждений и споров в кругу своих. И самое важное – говорим спасибо каждому, кто стал частью первого DevOps Lab в Сибири. Надеемся, мы стали местом, где можно открыто обсуждать реальные кейсы, обмениваться опытом и искать решения вместе.

🟡Совсем скоро выйдем в эфир с записью выступления с разбором рабочей архитектуры приватных LLM на базе Kubernetes.

А пока желаем продуктивной недели без инцидентов :)

#devops #никсис #митап

Please open Telegram to view this post

VIEW IN TELEGRAM

3🔥8👍6❤5

2.03K views13:00

DevOps FM

👾Ловим покемонов в кластерах

Пятница, конец рабочей недели и Pokémon в Kubernetes. Разработчик Анубхав Саньял вдохновился играми для Game Boy и любовью к DevOps. Так, на свет появился Project Yellow Olive, TUI-симулятор на языке Python. Подробнее об архитектуре – тут.

Вместо покемонов, вам предстоит анализировать работу покеподов, устранять проблемы K8S в локальном кластере Minikube, продвигаясь по аркам:

⏺

Oakwood Meadows с фокусом на подах

⏺

Signal Town с практикой работы с сетью и взаимодействием между компонентами (DNS, Ingress)

⏺

Gold Rush City и упор на политики безопасности (RBAC)

⏺

Sakura Harbour с развертыванием, масштабированием и обновлениями приложений.

Последняя локация появилась недавно, и включает масштабирование реплик, работу с ReplicaSet, сценариями отката (rollback) и отладкой неудачных развёртываний.

Желаем хороших выходных и успешного прохождения!

#DevOps #kubernetes #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤7🔥5👍3

2.29K views13:00

DevOps FM

Как Codex обнаружил регрессию в Kubernetes

👩‍💻 Начинаем рабочую неделю с фотоотчёта DevOps Lab и рабочего кейса портала HeyOnCall.

После обновления Kubernetes до версии 1.36 Майк Роббинс заметил проблему на небольшом тестовом кластере. kubelet постепенно «съедал» всю память. Поды работали нормально, но pprof обнаружил миллион объектов контекста.

Проблема возникла из-за небольшого регресса в коде startPodSync, и при каждом цикле синхронизации создавался новый context.WithCancel(), а старый никогда не освобождался. С Codex Роббинс быстро обнаружил проблемный коммит, подготовил исправление, прошёл ревью и добился включения патча в основную ветку и бэкпорта для релиза 1.36.3.

🔵В статье о том, как найти утечку памяти в kubelet с Go pprof и сократить потребление с 1 ГБ до 110 МБ, почему подобные ошибки сложно поймать на тестировании и какая строка кода может привести к утечке сотен мегабайт памяти на каждой ноде.

➡️

А здесь мы оставили фото участников лабы, делимся атмосферой. Отмечайте @DevOps_FM в соц.сетях и расскажите о своих впечатлениях – тут

💙

#kubernetes #devops #kubelet #никсис

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍5❤4🔥4

2.59K views13:00

DevOps FM

От надежности CI/CD до задач Kubernetes – на митапе Спортс"

Не успели отойти от встречи на DevOps Lab, как уже Спортс" приглашает инженеров поговорить об инфраструктурной безопасности в эту пятницу.

В программе четыре доклада:

• как защитить GitLab Runner
• в чем особенность CDN и что учесть при миграции инфраструктуры
• опыт внедрения ArgoCD и GitOps
• запуск GPU-задач в Kubernetes на нестандартном железе

📅 10 июля, 18:30
📍 Онлайн

➡️Полная программа и другие подробности — по ссылке. А зарегистрироваться можно – здесь.

#партнёрский_пост

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍7❤4🔥4

1.21K views11:05

DevOps FM

Новостной дайджест от DevOps FM!

🔔Выходим в эфир с подборкой новостей и практических разборов.

⏺ В блоге Sysdig опубликовали отчёт по безопасности. В июне среди причин инцидентов выделили ошибки конфигурации, свободный доступ к открытым ресурсам в облаке.

Также в отчёте разобрали атаки от 8 июня на Tchap с кражей 13,5 ГБ данных, и от 11 июня с выводом 1,3 ТБ данных. В первом случае в открытый доступ попали email-адреса и сведения об организациях более 73 тыс. из 600 тыс. учетных записей. Детали отчёта – здесь.

⏺ В понедельник вышел релиз OpenSSH версии 10.4. Из нового добавили экспериментальную поддержку схемы подписи ML-DSA 44 + Ed25519, включили реализацию на основе NFA и ужесточили требования к протоколу SSH при обмене ключами. Усилили безопасность и устранили уязвимости в ssh(1), sshd(8), scp(1) и sftp(1). Подробнее об улучшениях – тут.

⏺ С релизом Docker Desktop 4.81.0 от 6 июля обновили Docker Compose до версии 5.2.0 и Docker Scout CLI v1.22.0. Также внесли исправления для работы с kind-кластерами, улучшили загрузку образов и устранили проблему с остановкой контейнеров. В новой версии Docker Desktop учитывает заданные таймауты вместо принудительного завершения через 1 секунду. Все изменения – здесь.

⏺ На портале FreeCodeCamp вышла статья о включении политик нулевого доверия в Kubernetes. Дестини Эрхабор подробно разбирает идентификацию рабочих нагрузок через SPIFFE, SPIRE и Cilium.

На примере Kind-кластера он показывает, почему традиционные политики безопасности, не работают в динамической среде Kubernetes, а также объясняет, как Cilium реализует аутентификацию (mTLS) без Sidecar. Демо – тут.

⏺На Info Q Мэтт Сондерс разобрал архитектуру HubSpot и рассказал, как компания масштабировала платформу семантического поиска до 20 млрд векторов.

Внутренняя платформа Vector as a Service (VaaS) работает поверх Qdrant и обеспечивает контроль доступа, версионирование данных и сбор обратной связи. Сейчас система обслуживает 38+ команд, включает 200+ индексов, 140+ кластеров в пяти регионах и двух окружениях, а пиковая нагрузка достигает 100 тыс. запросов в секунду.

Как HubSpot сократил время запуска кластеров с Kubernetes Operator читайте – здесь.

#новостная_подборка #devops #kubernetes #openssh #zerotrust

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍4❤3🔥3

2.36K views13:01

DevOps FM

🚨 Что убивает этот под – разбор инцидента

Всем DevOps! В конце недели подготовили для вас кейс прямиком из производственной среды.

После выката нового ML-инференс-сервиса в Kubernetes поды один за другим уходят в CrashLoopBackOff. На первый взгляд кажется, что проблема в приложении. Но все ли так очевидно?


STATUS: CrashLoopBackOff

При этом в событиях Kubernetes видно:


Liveness probe failed:
connect: connection refused

А в логах контейнера:


Starting model server...
Loading model weights...
Loaded shard 1/4
Loaded shard 2/4
<SIGTERM received, shutting down>

И фрагмент Deployment:


livenessProbe:
  initialDelaySeconds: 10
  periodSeconds: 5
  failureThreshold: 3

👨‍💻Что здесь происходит? Почему сервис так и не успевает запуститься и оказывается в бесконечном CrashLoopBackOff?

Голосуйте в опросе ниже ⬇️

#devops #kubernetes #k8s #разборинцидента

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥4👍3❤2

1.16K views13:00

DevOps FM

🚨Почему под постоянно перезапускается?

Anonymous Quiz

14%

Контейнеру не хватает памяти, поэтому его завершает OOM Killer.

76%

Liveness probe начинает проверять контейнер раньше, чем модель успевает загрузиться.

Сервис слушает не тот порт, который указан в probe.

Deployment не может скачать образ из registry.

230 voters1.39K views13:00

DevOps FM

🚨 Что убивает этот под – разбор инцидента

Разрешение инцидентов в производственной среде с участием агентов — задача со звёздочкой даже для опытных инженеров. На DevOps Lab мы подробно разобрали сценарии работы ML-сервисов. Показываем, как исправить конфигурацию ⬇️

Добавьте startupProbe с запасом на время загрузки модели:


startupProbe:
  httpGet: { path: /health, port: 8080 }
  periodSeconds: 5
  failureThreshold: 30   # 30 × 5 = 150 секунд на загрузку модели

👀Если хотите глубже разобраться в теме, оставили записи всех выступлений DevOps Lab:

«Запуск приватных LLM в Kubernetes» — Пётр Рукин

😉

Youtube

🥰

Rutube

😄

VK

«AI-агенты как второй DevOps» — Евгений Дехтярёв

😉

Youtube

🥰

Rutube

😄

VK

Желаем хороших выходных, а дежурным – спокойных смен!

#devopslab #ИИ #агенты

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3🔥3

1.57K views13:11

DevOps FM

10 ошибок в CI/CD, которые замедляют работу инженеров

🔔В этот солнечный понедельник подготовили для вас подборку ошибок, собранную инженером портала DevOps.

Процессы непрерывной поставки связаны с эффективной работой пайплайнов. По мере роста числа репозиториев и циклов тестирования процессы СI/CD, которые работали на старте проекта, требуют инфраструктурных изменений.

В статье автор собрал 10 типичных ошибок в организации CI/CD. Вы узнаете, почему монолитные пайплайны приводят к росту времени сборок и как неправильная стратегия тестирования зависимостей и окружений влияет на стабильность доставки.

Какие ошибки вы бы добавили в этот список?

#devops #ci_cd #лучшие_практики

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤6👍4🔥3

1.45K viewsedited 13:03

DevOps FM

👨‍💻Как сэкономить время на интеграционном тестировании с 28 до 17.5 с?

Рассказали инженеры CoreInfra ⬇️

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤3👍2

1.04K views11:00

DevOps FM

Forwarded from CoreInfra

Некоторое время назад я запустил autoresearch на задаче по ускорению тестов. Неожиданная находка: мы упирались не в сами тесты, а в путь до базы через порт-форвардинг докера. Изменение только этого ускоряет локальный прогон интеграционных тестов на macOS в полтора раза: 17.5 s против 28 s

Мы использовали Docker в Colima, а с Postgres, запущенным напрямую, каждый запрос к базе почти в 4 раза быстрее: ~0.1 мс против ~0.4 мс. Эти 0.3 мс уходят на SSH port-forwarding: host → SSH-туннель → VM → контейнер. А интеграционные тесты — это десятки тысяч последовательных запросов, так что 0.3 мс превращаются в +10 секунд.

Вывод: для локальной разработки лучше нативный Postgres. Если докер обязателен — Docker Desktop заметно лучше Colima: у него порт пробрасывается через vmnet, а не SSH.

Постфактум нашёл, что есть опция заменить ssh на grpc, но это все равно медленнее Docker Desktop 0.28 мс против 0.20 мс
colima start --port-forwarder grpc

– @razmser

1🔥4❤3👍2

1.01K views11:00

DevOps FM

Новостной дайджест от DevOps FM!

⌨️Делимся свежими новостями, туториалами и разборами инженерных практик.

⏺Microsoft выкатили патч с рекордным числом исправлений.

Вчера, 14 июля, компания представила релиз с 570 фиксами ОС Windows, обнаруженных искусственным интеллектом. Из них устранили 60 критических уязвимостей, включая CVE-2026-56155, ошибку сервисов активной директории, и CVE-2026-56164, уязвимость Microsoft SharePoint.

⏺В блоге Kubernetes вышла пошаговая инструкция по созданию собственного экспортера метрик, когда встроенных показателей CPU и памяти недостаточно. В ней разобрали, для каких задач нужен экспортер и как выбрать между Counter, Gauge и Histogram в зависимости от разных сценариев. В конце автор упомянул, как подготовить метрики для использования в HorizontalPodAutoscaler через Prometheus Adapter.

⏺ На Хабре вышло сравнение LLM в производственной среде. На примере использования llama.cpp, Gemma и Qwen в разных сценариях инженеры Wb-Tech решили:

• Перейти с Ollama на llama.cpp, чтобы получить больше контроля над инференсом, настройками, воспроизводимостью и структурированным выводом через GBNF
• Не использовать одну универсальную модель
• Использовать собственные конвееры для стабильных процессов
• Считать веса моделей критической зависимостью и фиксировать версии, хранить копии, не полагаться на внешние репозитории

Больше о бенчмарках и особенностях кейса – в статье.

⏺ Причины низкой производительности GitLab CI разобрал инженер компании OTUS. В статье он приводит 6 основных ошибок в работе: в кэшировании, распределении нагрузки между раннерами, выбором Docker-образов, параллелизацией, сборкой контейнеров и автоскейлингом. А также показывает, в чем измерять эффективность без усложнения инфраструктуры.

⏺ Брайан Грант, СТО ConfigHub, перечислил инструменты по управлению общими настройками рабочих нагрузок в Kubernetes.

Речь идет об автоматизированных проверках и изменениях в контексте безопасности, пробах, запасе количества упавших подов. В статье Брайн описывает подход Configuration as Data и дает готовые инструменты для анализа состояния кластеров, выявления нарушений. Подробности – на Medium.

#новостная_подборка #devops #kubernetes #llm #gitlab

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥4👍3❤2

1.17K views13:05

DevOps FM

Пятничное чтиво на DevOps FM

📚 В эту пятницу собрали для вас подборку гайдов по обеспечению стабильной работы агентов в производственной среде. Автор статьи на Medium разделяет все 12 книг из рекомендации на 3 категории:

Для тех, кто строит автономных агентов
⏺ Начните с Designing Multi-Agent Systems, чтобы понять механику систем с нуля
⏺ А затем продолжите с Agentic AI Engineering, чтобы научиться делать агентов безопасными и не дать им случайно сломать производственную среду, например базу данных.

Для тех, кто выстраивает RAG-пайплайны
⏺Автор советует Mastering Retrieval-Augmented Generation, чтобы разобраться в сегментации, извлечении и других практиках работы с контекстом.

Для инженерных лидов
⏺Начать стоит с LLMOps для понимания контекста мониторинга, эксплуатации и стоимости ИИ-систем.

Автор не рекомендует читать все книги из подборки, ведь так легко застрять в бесконечном «туториальном аду» в недрах теории. ИИ-технологии быстро меняются, а значит, пора применять навыки на практике как можно скорее.

👀

Какие материалы по работе с ИИ помогли вам? Делитесь в комментариях, расширим подборку полезного.

#пятничное_чтиво #подборка_книг #ии

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍5🔥4🤔2

1.34K views13:05

DevOps FM

👨‍💻Всем DevOps! Мы уже рассказывали о сервисе для аренды VPS/VDS с выделенными ресурсами от Cortel. Коллеги делятся специальным предложением ⬇️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🔥2

914 viewsedited 11:01

DevOps FM

Forwarded from CORTEL

🤑

Как заработать с инфраструктуры больше?

Мы подняли партнёрское вознаграждение до 100% первого платежа клиента и гарантируем регулярный доход до 20% с дальнейших оплат.

Если назрела задача по VPS, облаку, бэкапам, каналам или чувствительным данным — можно дополнительно заработать в CORTEL : ребята подключатся, разберут задачу, подготовят решение, запустят инфраструктуру и будут поддерживать её 24/7, а вы получите регулярный дополнительный доход.

Выплаты не отменяются через год — вы продолжаете зарабатывать, пока клиент с нами. А сумма заработка не ограничена сверху 😊

📣

Полные условия и регистрация тут.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥3❤2

874 views11:01

DevOps FM

В эфире DevOps FM – срединедельный дайджест новостей и статей!

⏺

OpenAI заявили, что GPT-5.6 Sol и предрелизная модели причастны к атаке на Hugging Face от 16 июля.

Атака началась с конвейера обработки данных. Вредонос использовал 2 уязвимости, получил доступ к ноде, проник в несколько внутренних кластеров и завладел учетными данными в облаке.

В статье OpenAI сообщили, что модели работали в экспериментальном режиме для оценки функционала. Всё об инциденте – здесь, прогнозы от OpenAI – тут.

⏺Всего 1 комментарий в запросе на слияние Azure DevOps может настроить Агента-ревьюера против пользователя.

В MCP-сервере Microsoft обнаружена уязвимость c инъекцией промта через описание запроса на слияние. Команда Manifold Security присвоила ей тип confused deputy. Разбор причин и PoC найдете – здесь.

⏺На прошлой неделе выкатили релиз GitLab 19.2. В новой версии сосредоточились на автоматизации в бэклоге. Представили бета-функции сканирования и исправления, проверки рабочего цикла.

Теперь ИИ-агенты сканируют содержимое конвеера и открывают запрос на слияние, чтобы устранить уязвимости и ошибки в коде. Также упростили работу в терминале с GitLab Duo CLI и агентами в цепочке (Agentic Flows), которые в версии 19.2 вышли на уровень GA. Подробнее об изменениях – тут.

⏺20 июля состоялся релиз стабильной ветки Kata Containers 4.0.0, проекта с открытым исходным кодом от Intel, Hyper и OpenStac. Он отличается безопасностью, защиты от уязвимостей в ядре Linux, сочетает удобство контейнеров с изоляцией виртуальных машин.

В новой версии совершили переход на runtime с языка Go на Rust, включили поддержку гипервизоров Cloud Hypervisor, Firecracker, Dragonball, QEMU и улучшили интеграцию с Kubernetes и Docker. Особенности обновления оставили – здесь, а сравнение Kate Containers с Docker от NorthFlank – тут.

⏺На Хабре опубликовали заключительную часть из серии статей о защите CI/CD в проектах с открытым кодом. В первой сосредоточились на контроле доступа, разместили конфиги YAML и список улучшений для Cilium. Во второй дали инструкции по укреплению зависимостей, а в свежем переводе речь пошла о защите учётных данных и верификации, изоляции секретов CI.

#devops #инциденты #ии #gitlab #ci_cd

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥3❤21

876 views13:00

DevOps FM

Как ИИ-агенты снижают нагрузку: кейсы

👨‍💻Переход к агентам начинается с осознания, что ИИ – лишь инструмент, а не универсальное решение. Вместо того чтобы держать 10 вкладок Claude Code в браузере, DevOps-инженер Евгений Дехтярёв создал автономную систему на базе оркестратора Paperclip и моделей Claude (Opus/Sonnet).

Ниже мы описали, как агенты справляются с задачами команды из 50 разработчиков и менеджеров.

⏺

Рутина под ключ

На практике агенты отлично справляются с рутиной для оптимизации времени и ресурсов. Так, Claude Code самостоятельно создает техническое задание с соблюдением логики и контекста и по нему выполняет простую инфраструктурную задачу.

За месяц 34 тикета были отданы агентам:

⁃ GitLab CI/ Runners – 7
⁃ Kubernetes – 6
⁃ Storage/S3 – 6
⁃ Базы данных – 6
⁃ VM lifecycle – 4
⁃ Бэкапы. Домены – 4
⁃ Мониторинг (Grafana) – 1

⏺

Разбор алертов

Получив RO доступ к stage- и prod-средам, а также общий контекст системы, SRE-агент запускает разбор ошибок в системе оповещений. После диагностики он ставит гипотезу о первопричине ошибки и сообщает о результатах в тредах Slack-каналов. Так, разработчики сразу видят RCA и могут сразу приступить к внесению изменений.

⏺

FinOps по нескольким облакам

Для оптимизации облачных расходов команда должна держать руку на пульсе и обосновывать каждое техническое решение. Агент-аналитик упрощает ведение отчетности, собирает биллинг по всем провайдерам. С его помощью Евгений обнаружил подключенные мониторинг и логирование от Google. После отказа от сервисов команда сэкономила 400$ ежемесячно.

👀Подробнее о ролях и задачах агентов, подводных камнях в работе – в записи выступления.

#devops #ai #агенты #кейс

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍6🔥6❤4🤣1

836 views13:03

About

Blog

Apps

Platform