Мониторим ИТ

Все лгут: почему не стоит слепо доверять данным в Prometheus и что важно учитывать при их интерпретации

В этой статье разбирается, в каких случаях не стоит доверять данным Prometheus, и разбираются особенности работы lookback-delta, оконных функций и Federation API. В итоге вы сможете корректно интерпретировать данные с учётом особенностей этой и других систем мониторинга на базе TSDB. Читать дальше на Хабре.

🔥13👍3

3.6K views09:33

Мониторим ИТ

Авто-ресурсы в Kubernetes, Pulumi NEO и Google MCP: инфраструктура на автопилоте

🔔Всем срединедельный DevOps! Обсудим свежие апдейты авто-выделения ресурсов в K8s и инструментов GitOps. Полезно тем, кто хочет меньше крутить кластеры вручную: автоматизировать реакцию на инциденты, сократить ручные kubectl apply, ускорить rollout и вернуть сервисы в строй до того, как прилетит алерт.

🟡 Kubernetes 1.34 и динамическое выделение ресурсов
В версии Kubernetes 1.34 кластер сам подбирает ресурсы GPU, CPU и I/O под конкретные задачи — без необходимости заранее прописывать лимиты в PodSpec. Теперь через API можно запрашивать устройства с нужными параметрами (тип GPU, версия CUDA, объём памяти) — и Kubernetes подберёт подходящее оборудование.
Это снижает долю простаивающих ресурсов, особенно при ML- и AI-нагрузках, где требования к железу меняются на лету.

⚫️ Pulumi NEO упрощает GitOps
Pulumi NEO читает IaC-код, сам формирует план изменений инфраструктуры, проверяет его через Policy as Code и применяет. Он понимает зависимости, окружения и может откатывать изменения без ручного kubectl apply. Полезен, когда GitOps-потоки разрастаются, а ручное управление окружениями тормозит релизы.

🟡 Google MCP для баз данных
Google представил MCP Toolbox — серверный набор инструментов, который реализует MCP для безопасной автоматизации доступа к базам данных. SQL-операции задаются декларативно в tools.yaml , а MCP управляет подключениями, пулами и правами доступа. Поддерживает Cloud SQL, AlloyDB, Spanner, PostgreSQL и MySQL.Система следит за нагрузкой, масштабирует кластеры и перестраивает схемы без ручного вмешательства DBA. Ещё один шаг к инфраструктуре, где всё крутится само.

🚀Пусть кластер решает проблемы сам — мы расскажем, как это сделать до появления алерта.
Подробнее на DevOps FM.

#DevOps #Kubernetes #SRE

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8⚡2❤1

3.65K views08:01

Мониторим ИТ

Мониторинг истории активных сессий в базах данных

История активных сессий (Active Session History, ASH) — очень удобный способ получения информации о работе БД в кратком виде. Когда важно максимально быстро отследить, что происходит с системой в настоящее время, оценить развитие текущей ситуации — это рабочая активность или начало каких‑либо проблем — в том числе, через быстрый просмотр baselines в недавнем прошлом системы и сравнить их с текущими данными.

В статье разбирается использование open-source инструмент Dimension-UI на задаче мониторинга истории активных сессий в базах данных Oracle, PostgreSQL, ClickHouse и MS SQL Server в режиме реального времени.

Репыч на Гитхаб

🔥9❤2👍2👎1

3.44K views12:05

Мониторим ИТ

Alertmanager-jira для интеграции алертов в jira

Знакомьтесь с alertmanager-jira — инструментом для интеграции Alertmanager (с Prometheus или VictoriaMetrics). Это плагин, который создаёт и управляет задачами в Jira на основе алертов, с акцентом на гибкость. Написан на Quarkus, лёгкий и готов к деплою в docker (podman). Читать дальше.

🔥8❤3

3.15K views14:04

Мониторим ИТ

elephantshark

Elephantshark помогает отслеживать и устранять неполадки сетевого трафика Postgres. Это открытая утилита.

Репыч на Гитхабе

🔥8

3.09K views06:01

Мониторим ИТ

Kubernetes Monitoring Metrics That Improve Cluster Reliability

В этой статье приведены метрики мониторинга Kubernetes, которые помогают выявлять проблемы на ранних этапах, повышать надежность и поддерживать максимальную производительность кластера.

Кластер Kubernetes может генерировать более 1400 метрик без предварительной настройки. Это огромный объём данных, который приходится анализировать, особенно когда вы устраняете неполадки в работе производства посреди ночи.

Главное — знать, какие метрики дают наибольшую информацию, при этом минимизируя шум. Именно на эти сигналы стоит обращать внимание, когда нужны быстрые ответы.

🔥8👍1

2.84K views09:37

Мониторим ИТ

Без паники: как работает комплексный мониторинг

В этой статье с нами делится Денис Мухин, руководитель управления мониторинга в РТК-ЦОД, тем как должен работать грамотный мониторинг и зачем он вообще нужен.

Похоже на некий овервью используемого стека мониторинга. Лучше бы рассказали подробно про каждую систему и как она работает. Судя по скриншотам, у них полно самописного ~~бобра~~ добра.

🔥8👍1

3.09K views13:36

Мониторим ИТ

Эффективный мониторинг облачных решений: первые шаги от метрик к асинхронным задачам

Пост на Хабре от Yandex Cloud. Рассказывают про реальные сценарии использования мониторинга облачных решений: покажут как настроить дашборды, быстро проверить гипотезы при расследовании инцидента, а в конце собераны лучшие практики для настройки мониторинга.

🔥7👎2

3.09K views06:03

Мониторим ИТ

How Should You Compensate Your Employees for Being On Call?

Статья от PagerDuty о том, как правильно платить дежурным инженерам за работу. Спойлер: платите им на основе доступности сервисов. Как вам такой вариант?

🔥5👍1

2.96K views11:55

Мониторим ИТ

wave

Wave отслеживает Deployments, StatefulSets и DaemonSets в кластере Kubernetes и следит за тем, чтобы их модули всегда имели актуальную конфигурацию.

Путем мониторинга смонтированных ConfigMaps и Secrets Wave может инициировать последовательное обновление Deployment при изменении смонтированной конфигурации.

Репыч на Гитхаб

GitHub

GitHub - wave-k8s/wave: Kubernetes configuration tracking controller

Kubernetes configuration tracking controller. Contribute to wave-k8s/wave development by creating an account on GitHub.

🔥5❤2👍2👎1

3.54K views15:12

Мониторим ИТ

Как я пришел к SLO: От хаоса алертов к осознанности

Опыт SRE-инженера из Ви.Tech (IT-дочка ВсеИнструменты.ру)

🔥7👍2

3.06K views07:00

Мониторим ИТ

Учебный центр Галс Софтвэр приглашает на осеннюю серию тренингов-интенсивов по Elasticsearch и OpenSearch.

📅 ElasticSearch База 22-24 октября 2025

📅 OpenSearch База 29-31 октября 2025

Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с соответствующей системой сразу после прохождения тренинга.

Мы опросили участников предыдущих потоков и сформулировали основные преимущества от прохождения тренингов:

📖 устранить пробелы. Часто знания по соответствующей системе ограничиваются эпизодическим изучением документации и фрагментарны. Интенсивы помогут систематизировать знания и откроют для вас новые возможности уже знакомой системы.

📖 делать своими силами. Участие подрядчиков в проектах внедрения подразумевает предоставление доступа в ваше окружение. Прохождение официальных тренингов позволит вам выполнять работы силами штатных сотрудников.

📖 распространять знания. Сотрудники, прошедшие тренинг, не просто совершенствуют свои собственные технические навыки — они привносят полученные знания в коллектив и делятся ими со своими коллегами.

❗️Полное расписание тренингов.

Подробную информацию вы можете запросить, написав @galssoftware или через почту hello@gals.software.

🔥6❤2👍1👎1

2.88K views10:40

Мониторим ИТ

Auto-Instrumenting Go Applications Without Modifying Source Code

Go компилируется статически, то есть весь код и библиотеки встраиваются в исполняемый файл во время компиляции. Из-за этого традиционная автоматическая инструментация, основанная на динамическом подключении к функциям во время выполнения, не работает нормально. В отличие от таких языков, как Python или JavaScript, в Go отсутствуют хуки во время выполнения для перехвата вызовов библиотек, поэтому разработчикам обычно приходится вручную добавлять трассировку и распространение контекста, что усложняет инструментацию и повышает вероятность ошибок.

Инструментарий eBPF решает эту проблему, выполняя трассировку на уровне ядра, вне самой программы. Он может перехватывать все сетевые вызовы, системные вызовы и события ввода-вывода, обеспечивая полную наблюдаемость без изменения кода Go. По сути, он видит всё, что может скрывать вшитый двоичный код Go. Читать дальше.

❗️ Статья на medium.com

🔥7👍1👎1

2.85K views13:00

Мониторим ИТ

Postmortem без обвинений: Миф или реальность?

Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды.

Статистика, которая отрезвляет:

🚀 85% проблем в production — системные, а не человеческие ошибки (Google SRE)

🚀 94% инцидентов имеют множественные причины (STELLA Report)

🚀 Команды с культурой обвинений имеют в 3 раза больше повторных инцидентов

Читать дальше на Хабре

🔥10👍4❤2

2.96K views06:00

Мониторим ИТ

Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

В этой статье автор делится практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.

Репыч Uptrace на Гитхабе

🔥11❤1👍1

3.54K views13:02

Мониторим ИТ

5 трюков в bash, которые сделают вас лучшим SRE

При отладке проблемы в боевой среде каждая секунда на счету. Хотя, большинство инженеров знают основной bash-команды, разница между джуном и синьором SRE часто заключается в знании этих мощных, но малоизвестных bash-функций, которые могут превратить 30-минутный поиск проблемы в 5-минутную легкую прогулку. Действительно, полезные советы

Teletype

5 трюков в bash, которые сделают вас лучшим SRE

Перевод сделан специально для телеграм-канала Мониторим ИТ.

🔥14👍6👎5

4.14K views06:01

Мониторим ИТ

pg_expecto: Аудит производительности инфраструктуры при нагрузочном тестировании СУБД PostgreSQL

В этой статье мы рассмотрено, как расширение pg_expecto объединяет метрики инфраструктуры и PostgreSQL в едином месте. Вы узнаете как превратить разрозненные данные в целостную картину. Читать на Хабре.

🔥6👎4👍1

3.42K views08:38

Мониторим ИТ

Why I recommend native Prometheus instrumentation over OpenTelemetry

Учитывая хайп вокруг OpenTelemetry (OTel), может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования приложений. В некоторых ситуациях стоит использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если вы хотите получить наилучший опыт мониторинга. В этой статье рассмотрены причины такого подхода.

🔥7❤3👍2

3.17K views06:06

Мониторим ИТ

Пример настройки стека мониторинга: Prometheus, Loki, Grafana, Promtail и Tempo

Наблюдаемость — это уже не роскошь, а необходимость. В этой статье рассказано, как настроить полноценный стек мониторинга с открытым исходным кодом для приложения на базе Node.js (NestJS) с использованием Prometheus, Loki, Grafana, Promtail и Tempo. В итоге вы получите полную observability-модель: метрики, логи и трассировки — всё на одном дашборде.

🔥7👎6

3.18K views06:46

Мониторим ИТ

On-call ротация без выгорания

«Я уволился из своей первой работы SRE‑инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять «по‑настоящему», потому что «горячий фикс же работает». На восьмое утро я пришел в офис и положил заявление на стол.

Это было пять лет назад. С тех пор я прошел через четыре компании, построил on‑call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on‑call ротацию, которая не приведет к массовым увольнениям.» Читать дальше на Хабре.

🔥13👎6👍5❤1

3.02K views12:14

Мониторим ИТ

Величие и нищета Виктории и Прометея

«Итак, у меня был сервис. Обычная молотилка данных, каждый с такой хотя бы раз да сталкивался - что-то на входе, что-то на выходе, а внутри походы в базу, HTTP-вызовы, шаблоны, скриптовая логика... В общем, много всякого.

Ну, ладно, тут стоит сразу уточнить, что сервис с особенностями - молотилка данных устроена так, что пытается работать с разными форматами на входе и выходе, а внутри держать всё в одном представлении. Но вот из-за этой потребности работать с разным, внутреннее представление это - мапы, слайсы, мапы в слайсах, слайсы в мапах, да ещё и из всех щелей торчит куча метрик.

Беглый поиск привел к пакету https://github.com/VictoriaMetrics/metrics от авторов VictoriaMetrics - то, что в конечном итоге привело к написанию этой статьи. В любой инфраструктуре, с которой мне приходилось работать, Виктория всегда занимала почётное место Главного Хранилища Метрик, посему решено - время щупать новую библиотеку. Читать дальше на Хабре.

🔥10👍3❤1

3.15K views06:00

About

Blog

Apps

Platform