Мониторим ИТ
8.07K subscribers
200 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Все лгут: почему не стоит слепо доверять данным в Prometheus и что важно учитывать при их интерпретации

В этой статье разбирается, в каких случаях не стоит доверять данным Prometheus, и разбираются особенности работы lookback-delta, оконных функций и Federation API. В итоге вы сможете корректно интерпретировать данные с учётом особенностей этой и других систем мониторинга на базе TSDB. Читать дальше на Хабре.
🔥13👍3
Авто-ресурсы в Kubernetes, Pulumi NEO и Google MCP: инфраструктура на автопилоте

🔔Всем срединедельный DevOps! Обсудим свежие апдейты авто-выделения ресурсов в K8s и инструментов GitOps. Полезно тем, кто хочет меньше крутить кластеры вручную: автоматизировать реакцию на инциденты, сократить ручные kubectl apply, ускорить rollout и вернуть сервисы в строй до того, как прилетит алерт.

🟡 Kubernetes 1.34 и динамическое выделение ресурсов
В версии Kubernetes 1.34 кластер сам подбирает ресурсы GPU, CPU и I/O под конкретные задачи — без необходимости заранее прописывать лимиты в PodSpec. Теперь через API можно запрашивать устройства с нужными параметрами (тип GPU, версия CUDA, объём памяти) — и Kubernetes подберёт подходящее оборудование.
Это снижает долю простаивающих ресурсов, особенно при ML- и AI-нагрузках, где требования к железу меняются на лету.

⚫️ Pulumi NEO упрощает GitOps
Pulumi NEO читает IaC-код, сам формирует план изменений инфраструктуры, проверяет его через Policy as Code и применяет. Он понимает зависимости, окружения и может откатывать изменения без ручного kubectl apply. Полезен, когда GitOps-потоки разрастаются, а ручное управление окружениями тормозит релизы.

🟡 Google MCP для баз данных
Google представил MCP Toolbox — серверный набор инструментов, который реализует MCP для безопасной автоматизации доступа к базам данных. SQL-операции задаются декларативно в tools.yaml , а MCP управляет подключениями, пулами и правами доступа. Поддерживает Cloud SQL, AlloyDB, Spanner, PostgreSQL и MySQL.Система следит за нагрузкой, масштабирует кластеры и перестраивает схемы без ручного вмешательства DBA. Ещё один шаг к инфраструктуре, где всё крутится само.

🚀Пусть кластер решает проблемы сам — мы расскажем, как это сделать до появления алерта.
Подробнее на DevOps FM.

#DevOps #Kubernetes #SRE
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥821
Мониторинг истории активных сессий в базах данных

История активных сессий (Active Session History, ASH) — очень удобный способ получения информации о работе БД в кратком виде. Когда важно максимально быстро отследить, что происходит с системой в настоящее время, оценить развитие текущей ситуации — это рабочая активность или начало каких‑либо проблем — в том числе, через быстрый просмотр baselines в недавнем прошлом системы и сравнить их с текущими данными.

В статье разбирается использование open-source инструмент Dimension-UI на задаче мониторинга истории активных сессий в базах данных Oracle, PostgreSQL, ClickHouse и MS SQL Server в режиме реального времени.

Репыч на Гитхаб
🔥92👍2👎1
Alertmanager-jira для интеграции алертов в jira

Знакомьтесь с alertmanager-jira — инструментом для интеграции Alertmanager (с Prometheus или VictoriaMetrics). Это плагин, который создаёт и управляет задачами в Jira на основе алертов, с акцентом на гибкость. Написан на Quarkus, лёгкий и готов к деплою в docker (podman). Читать дальше.
🔥83
elephantshark

Elephantshark помогает отслеживать и устранять неполадки сетевого трафика Postgres. Это открытая утилита.

Репыч на Гитхабе
🔥8
Kubernetes Monitoring Metrics That Improve Cluster Reliability

В этой статье приведены метрики мониторинга Kubernetes, которые помогают выявлять проблемы на ранних этапах, повышать надежность и поддерживать максимальную производительность кластера.

Кластер Kubernetes может генерировать более 1400 метрик без предварительной настройки. Это огромный объём данных, который приходится анализировать, особенно когда вы устраняете неполадки в работе производства посреди ночи.

Главное — знать, какие метрики дают наибольшую информацию, при этом минимизируя шум. Именно на эти сигналы стоит обращать внимание, когда нужны быстрые ответы.
🔥8👍1
Без паники: как работает комплексный мониторинг

В этой статье с нами делится
Денис Мухин, руководитель управления мониторинга в РТК-ЦОД, тем как должен работать грамотный мониторинг и зачем он вообще нужен.

Похоже на некий овервью используемого стека мониторинга. Лучше бы рассказали подробно про каждую систему и как она работает. Судя по скриншотам, у них полно самописного бобра добра.
🔥8👍1
Эффективный мониторинг облачных решений: первые шаги от метрик к асинхронным задачам

Пост на Хабре от Yandex Cloud. Рассказывают про реальные сценарии использования мониторинга облачных решений: покажут как настроить дашборды, быстро проверить гипотезы при расследовании инцидента, а в конце собераны лучшие практики для настройки мониторинга.
🔥7👎2
How Should You Compensate Your Employees for Being On Call?

Статья от PagerDuty о том, как правильно платить дежурным инженерам за работу. Спойлер: платите им на основе доступности сервисов. Как вам такой вариант?
🔥5👍1
wave

Wave отслеживает Deployments, StatefulSets и DaemonSets в кластере Kubernetes и следит за тем, чтобы их модули всегда имели актуальную конфигурацию.

Путем мониторинга смонтированных ConfigMaps и Secrets Wave может инициировать последовательное обновление Deployment при изменении смонтированной конфигурации.

Репыч на Гитхаб
🔥52👍2👎1
Как я пришел к SLO: От хаоса алертов к осознанности

Опыт SRE-инженера из Ви.Tech (IT-дочка ВсеИнструменты.ру)
🔥7👍2
Учебный центр Галс Софтвэр приглашает на осеннюю серию тренингов-интенсивов по Elasticsearch и OpenSearch.

📅 ElasticSearch База 22-24 октября 2025

📅 OpenSearch База 29-31 октября 2025

Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с соответствующей системой сразу после прохождения тренинга.

Мы опросили участников предыдущих потоков и сформулировали основные преимущества от прохождения тренингов:

📖 устранить пробелы. Часто знания по соответствующей системе ограничиваются эпизодическим изучением документации и фрагментарны. Интенсивы помогут систематизировать знания и откроют для вас новые возможности уже знакомой системы.

📖 делать своими силами. Участие подрядчиков в проектах внедрения подразумевает предоставление доступа в ваше окружение. Прохождение официальных тренингов позволит вам выполнять работы силами штатных сотрудников.

📖 распространять знания. Сотрудники, прошедшие тренинг, не просто совершенствуют свои собственные технические навыки — они привносят полученные знания в коллектив и делятся ими со своими коллегами.

❗️Полное расписание тренингов.

Подробную информацию вы можете запросить, написав @galssoftware или через почту hello@gals.software.
🔥62👍1👎1
Auto-Instrumenting Go Applications Without Modifying Source Code

Go компилируется статически, то есть весь код и библиотеки встраиваются в исполняемый файл во время компиляции. Из-за этого традиционная автоматическая инструментация, основанная на динамическом подключении к функциям во время выполнения, не работает нормально. В отличие от таких языков, как Python или JavaScript, в Go отсутствуют хуки во время выполнения для перехвата вызовов библиотек, поэтому разработчикам обычно приходится вручную добавлять трассировку и распространение контекста, что усложняет инструментацию и повышает вероятность ошибок.

Инструментарий eBPF решает эту проблему, выполняя трассировку на уровне ядра, вне самой программы. Он может перехватывать все сетевые вызовы, системные вызовы и события ввода-вывода, обеспечивая полную наблюдаемость без изменения кода Go. По сути, он видит всё, что может скрывать вшитый двоичный код Go. Читать дальше.

❗️ Статья на medium.com
🔥7👍1👎1
Postmortem без обвинений: Миф или реальность?

Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды.

Статистика, которая отрезвляет:

🚀 85% проблем в production — системные, а не человеческие ошибки (Google SRE)

🚀 94% инцидентов имеют множественные причины (STELLA Report)

🚀 Команды с культурой обвинений имеют в 3 раза больше повторных инцидентов

Читать дальше на Хабре
🔥10👍42
Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

В этой статье автор делится практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.

Репыч Uptrace на Гитхабе
🔥111👍1
5 трюков в bash, которые сделают вас лучшим SRE

При отладке проблемы в боевой среде каждая секунда на счету. Хотя, большинство инженеров знают основной bash-команды, разница между джуном и синьором SRE часто заключается в знании этих мощных, но малоизвестных bash-функций, которые могут превратить 30-минутный поиск проблемы в 5-минутную легкую прогулку. Действительно, полезные советы
🔥14👍6👎5
pg_expecto: Аудит производительности инфраструктуры при нагрузочном тестировании СУБД PostgreSQL

В этой статье мы рассмотрено, как расширение pg_expecto объединяет метрики инфраструктуры и PostgreSQL в едином месте. Вы узнаете как превратить разрозненные данные в целостную картину. Читать на Хабре.
🔥6👎4👍1
Why I recommend native Prometheus instrumentation over OpenTelemetry

Учитывая хайп вокруг OpenTelemetry (OTel), может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования приложений. В некоторых ситуациях стоит использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если вы хотите получить наилучший опыт мониторинга. В этой статье рассмотрены причины такого подхода.
🔥73👍2
Пример настройки стека мониторинга: Prometheus, Loki, Grafana, Promtail и Tempo

Наблюдаемость — это уже не роскошь, а необходимость. В этой статье рассказано, как настроить полноценный стек мониторинга с открытым исходным кодом для приложения на базе Node.js (NestJS) с использованием Prometheus, Loki, Grafana, Promtail и Tempo. В итоге вы получите полную observability-модель: метрики, логи и трассировки — всё на одном дашборде.
🔥7👎6
On-call ротация без выгорания

«Я уволился из своей первой работы SRE‑инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять «по‑настоящему», потому что «горячий фикс же работает». На восьмое утро я пришел в офис и положил заявление на стол.

Это было пять лет назад. С тех пор я прошел через четыре компании, построил on‑call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on‑call ротацию, которая не приведет к массовым увольнениям.» Читать дальше на Хабре.
🔥13👎6👍51
Величие и нищета Виктории и Прометея

«Итак, у меня был сервис. Обычная молотилка данных, каждый с такой хотя бы раз да сталкивался - что-то на входе, что-то на выходе, а внутри походы в базу, HTTP-вызовы, шаблоны, скриптовая логика... В общем, много всякого.

Ну, ладно, тут стоит сразу уточнить, что сервис с особенностями - молотилка данных устроена так, что пытается работать с разными форматами на входе и выходе, а внутри держать всё в одном представлении. Но вот из-за этой потребности работать с разным, внутреннее представление это - мапы, слайсы, мапы в слайсах, слайсы в мапах, да ещё и из всех щелей торчит куча метрик.

Беглый поиск привел к пакету https://github.com/VictoriaMetrics/metrics от авторов VictoriaMetrics - то, что в конечном итоге привело к написанию этой статьи. В любой инфраструктуре, с которой мне приходилось работать, Виктория всегда занимала почётное место Главного Хранилища Метрик, посему решено - время щупать новую библиотеку. Читать дальше на Хабре.
🔥10👍31