Мониторим ИТ
8.07K subscribers
200 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Forwarded from Zabbix Recipes
Онлайн-академия Zabbix

Теперь пройти обучение стало еще проще. Там есть и бесплатные курсы. Учиться!
👍7🔥5👎2
How to use AI to make Kubernetes monitoring smarter (статья про n8n и MCP-сервер)

Как DevOps-инженер, автор этой статьи уверен, что многие сталкивались с неприятностями, когда вас будят оповещения Prometheus в 3 часа ночи. Каждый раз, когда приходит оповещение, вам приходится вставать, проверять состояние пода, копаться в журналах, устранять неполадку и часто обнаруживать, что её можно было решить простой перезагрузкой, но вы уже потратили 30 минут на изучение проблемы.

Больше всего раздражает то, что многие оповещения следуют предсказуемым шаблонам устранения неполадок. В случае проблем со здоровьем пода мы всегда проверяем журналы, использование ресурсов и конфигурацию. Каждый раз мы повторяем одни и те же шаги. Это пустая трата времени.

Поэтому автор этой статьи задумался: может ли ИИ помочь нам с этими повторяющимися задачами? Сможет ли он следовать экспертной логике поиска и устранения неполадок, диагностируя проблемы и предоставляя первоначальные рекомендации? Подробности в статье.

❗️статья на medium.com
🔥8👍1
Пишем экспортёр данных Prometheus для ОС «Нейтрино»

Так как Prometheus широко распространен, то для сбора и предоставления данных о метриках в нужном формате существует большое множество различных экспортёров, но все они либо заточены под работу на конкретных устройствах, либо избыточны, и содержат массу зависимостей.

Автору этой статьи требовался достаточно простой текстовый экспортёр, который бы стабильно работал в условиях использования встраиваемых систем с различными архитектурами процессора, и учитывал бы особенности и ограничения ОС.
👍5🔥521
Все лгут: почему не стоит слепо доверять данным в Prometheus и что важно учитывать при их интерпретации

В этой статье разбирается, в каких случаях не стоит доверять данным Prometheus, и разбираются особенности работы lookback-delta, оконных функций и Federation API. В итоге вы сможете корректно интерпретировать данные с учётом особенностей этой и других систем мониторинга на базе TSDB. Читать дальше на Хабре.
🔥13👍3
Авто-ресурсы в Kubernetes, Pulumi NEO и Google MCP: инфраструктура на автопилоте

🔔Всем срединедельный DevOps! Обсудим свежие апдейты авто-выделения ресурсов в K8s и инструментов GitOps. Полезно тем, кто хочет меньше крутить кластеры вручную: автоматизировать реакцию на инциденты, сократить ручные kubectl apply, ускорить rollout и вернуть сервисы в строй до того, как прилетит алерт.

🟡 Kubernetes 1.34 и динамическое выделение ресурсов
В версии Kubernetes 1.34 кластер сам подбирает ресурсы GPU, CPU и I/O под конкретные задачи — без необходимости заранее прописывать лимиты в PodSpec. Теперь через API можно запрашивать устройства с нужными параметрами (тип GPU, версия CUDA, объём памяти) — и Kubernetes подберёт подходящее оборудование.
Это снижает долю простаивающих ресурсов, особенно при ML- и AI-нагрузках, где требования к железу меняются на лету.

⚫️ Pulumi NEO упрощает GitOps
Pulumi NEO читает IaC-код, сам формирует план изменений инфраструктуры, проверяет его через Policy as Code и применяет. Он понимает зависимости, окружения и может откатывать изменения без ручного kubectl apply. Полезен, когда GitOps-потоки разрастаются, а ручное управление окружениями тормозит релизы.

🟡 Google MCP для баз данных
Google представил MCP Toolbox — серверный набор инструментов, который реализует MCP для безопасной автоматизации доступа к базам данных. SQL-операции задаются декларативно в tools.yaml , а MCP управляет подключениями, пулами и правами доступа. Поддерживает Cloud SQL, AlloyDB, Spanner, PostgreSQL и MySQL.Система следит за нагрузкой, масштабирует кластеры и перестраивает схемы без ручного вмешательства DBA. Ещё один шаг к инфраструктуре, где всё крутится само.

🚀Пусть кластер решает проблемы сам — мы расскажем, как это сделать до появления алерта.
Подробнее на DevOps FM.

#DevOps #Kubernetes #SRE
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥821
Мониторинг истории активных сессий в базах данных

История активных сессий (Active Session History, ASH) — очень удобный способ получения информации о работе БД в кратком виде. Когда важно максимально быстро отследить, что происходит с системой в настоящее время, оценить развитие текущей ситуации — это рабочая активность или начало каких‑либо проблем — в том числе, через быстрый просмотр baselines в недавнем прошлом системы и сравнить их с текущими данными.

В статье разбирается использование open-source инструмент Dimension-UI на задаче мониторинга истории активных сессий в базах данных Oracle, PostgreSQL, ClickHouse и MS SQL Server в режиме реального времени.

Репыч на Гитхаб
🔥92👍2👎1
Alertmanager-jira для интеграции алертов в jira

Знакомьтесь с alertmanager-jira — инструментом для интеграции Alertmanager (с Prometheus или VictoriaMetrics). Это плагин, который создаёт и управляет задачами в Jira на основе алертов, с акцентом на гибкость. Написан на Quarkus, лёгкий и готов к деплою в docker (podman). Читать дальше.
🔥83
elephantshark

Elephantshark помогает отслеживать и устранять неполадки сетевого трафика Postgres. Это открытая утилита.

Репыч на Гитхабе
🔥8
Kubernetes Monitoring Metrics That Improve Cluster Reliability

В этой статье приведены метрики мониторинга Kubernetes, которые помогают выявлять проблемы на ранних этапах, повышать надежность и поддерживать максимальную производительность кластера.

Кластер Kubernetes может генерировать более 1400 метрик без предварительной настройки. Это огромный объём данных, который приходится анализировать, особенно когда вы устраняете неполадки в работе производства посреди ночи.

Главное — знать, какие метрики дают наибольшую информацию, при этом минимизируя шум. Именно на эти сигналы стоит обращать внимание, когда нужны быстрые ответы.
🔥8👍1
Без паники: как работает комплексный мониторинг

В этой статье с нами делится
Денис Мухин, руководитель управления мониторинга в РТК-ЦОД, тем как должен работать грамотный мониторинг и зачем он вообще нужен.

Похоже на некий овервью используемого стека мониторинга. Лучше бы рассказали подробно про каждую систему и как она работает. Судя по скриншотам, у них полно самописного бобра добра.
🔥8👍1
Эффективный мониторинг облачных решений: первые шаги от метрик к асинхронным задачам

Пост на Хабре от Yandex Cloud. Рассказывают про реальные сценарии использования мониторинга облачных решений: покажут как настроить дашборды, быстро проверить гипотезы при расследовании инцидента, а в конце собераны лучшие практики для настройки мониторинга.
🔥7👎2
How Should You Compensate Your Employees for Being On Call?

Статья от PagerDuty о том, как правильно платить дежурным инженерам за работу. Спойлер: платите им на основе доступности сервисов. Как вам такой вариант?
🔥5👍1
wave

Wave отслеживает Deployments, StatefulSets и DaemonSets в кластере Kubernetes и следит за тем, чтобы их модули всегда имели актуальную конфигурацию.

Путем мониторинга смонтированных ConfigMaps и Secrets Wave может инициировать последовательное обновление Deployment при изменении смонтированной конфигурации.

Репыч на Гитхаб
🔥52👍2👎1
Как я пришел к SLO: От хаоса алертов к осознанности

Опыт SRE-инженера из Ви.Tech (IT-дочка ВсеИнструменты.ру)
🔥7👍2
Учебный центр Галс Софтвэр приглашает на осеннюю серию тренингов-интенсивов по Elasticsearch и OpenSearch.

📅 ElasticSearch База 22-24 октября 2025

📅 OpenSearch База 29-31 октября 2025

Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с соответствующей системой сразу после прохождения тренинга.

Мы опросили участников предыдущих потоков и сформулировали основные преимущества от прохождения тренингов:

📖 устранить пробелы. Часто знания по соответствующей системе ограничиваются эпизодическим изучением документации и фрагментарны. Интенсивы помогут систематизировать знания и откроют для вас новые возможности уже знакомой системы.

📖 делать своими силами. Участие подрядчиков в проектах внедрения подразумевает предоставление доступа в ваше окружение. Прохождение официальных тренингов позволит вам выполнять работы силами штатных сотрудников.

📖 распространять знания. Сотрудники, прошедшие тренинг, не просто совершенствуют свои собственные технические навыки — они привносят полученные знания в коллектив и делятся ими со своими коллегами.

❗️Полное расписание тренингов.

Подробную информацию вы можете запросить, написав @galssoftware или через почту hello@gals.software.
🔥62👍1👎1
Auto-Instrumenting Go Applications Without Modifying Source Code

Go компилируется статически, то есть весь код и библиотеки встраиваются в исполняемый файл во время компиляции. Из-за этого традиционная автоматическая инструментация, основанная на динамическом подключении к функциям во время выполнения, не работает нормально. В отличие от таких языков, как Python или JavaScript, в Go отсутствуют хуки во время выполнения для перехвата вызовов библиотек, поэтому разработчикам обычно приходится вручную добавлять трассировку и распространение контекста, что усложняет инструментацию и повышает вероятность ошибок.

Инструментарий eBPF решает эту проблему, выполняя трассировку на уровне ядра, вне самой программы. Он может перехватывать все сетевые вызовы, системные вызовы и события ввода-вывода, обеспечивая полную наблюдаемость без изменения кода Go. По сути, он видит всё, что может скрывать вшитый двоичный код Go. Читать дальше.

❗️ Статья на medium.com
🔥7👍1👎1
Postmortem без обвинений: Миф или реальность?

Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды.

Статистика, которая отрезвляет:

🚀 85% проблем в production — системные, а не человеческие ошибки (Google SRE)

🚀 94% инцидентов имеют множественные причины (STELLA Report)

🚀 Команды с культурой обвинений имеют в 3 раза больше повторных инцидентов

Читать дальше на Хабре
🔥10👍42
Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

В этой статье автор делится практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.

Репыч Uptrace на Гитхабе
🔥111👍1
5 трюков в bash, которые сделают вас лучшим SRE

При отладке проблемы в боевой среде каждая секунда на счету. Хотя, большинство инженеров знают основной bash-команды, разница между джуном и синьором SRE часто заключается в знании этих мощных, но малоизвестных bash-функций, которые могут превратить 30-минутный поиск проблемы в 5-минутную легкую прогулку. Действительно, полезные советы
🔥14👍6👎5
pg_expecto: Аудит производительности инфраструктуры при нагрузочном тестировании СУБД PostgreSQL

В этой статье мы рассмотрено, как расширение pg_expecto объединяет метрики инфраструктуры и PostgreSQL в едином месте. Вы узнаете как превратить разрозненные данные в целостную картину. Читать на Хабре.
🔥6👎4👍1
Why I recommend native Prometheus instrumentation over OpenTelemetry

Учитывая хайп вокруг OpenTelemetry (OTel), может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования приложений. В некоторых ситуациях стоит использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если вы хотите получить наилучший опыт мониторинга. В этой статье рассмотрены причины такого подхода.
🔥73👍2