Мониторим ИТ – Telegram

Мониторим ИТ

8.07K subscribers

200 photos

2 files

1.52K links

Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch

Download Telegram

About

Blog

Apps

Platform

Мониторим ИТ

8.07K subscribers

Мониторим ИТ

Forwarded from Zabbix Recipes

Онлайн-академия Zabbix

Теперь пройти обучение стало еще проще. Там есть и бесплатные курсы. Учиться!

👍7🔥5👎2

2.52K views08:59

Мониторим ИТ

How to use AI to make Kubernetes monitoring smarter (статья про n8n и MCP-сервер)

Как DevOps-инженер, автор этой статьи уверен, что многие сталкивались с неприятностями, когда вас будят оповещения Prometheus в 3 часа ночи. Каждый раз, когда приходит оповещение, вам приходится вставать, проверять состояние пода, копаться в журналах, устранять неполадку и часто обнаруживать, что её можно было решить простой перезагрузкой, но вы уже потратили 30 минут на изучение проблемы.

Больше всего раздражает то, что многие оповещения следуют предсказуемым шаблонам устранения неполадок. В случае проблем со здоровьем пода мы всегда проверяем журналы, использование ресурсов и конфигурацию. Каждый раз мы повторяем одни и те же шаги. Это пустая трата времени.

Поэтому автор этой статьи задумался: может ли ИИ помочь нам с этими повторяющимися задачами? Сможет ли он следовать экспертной логике поиска и устранения неполадок, диагностируя проблемы и предоставляя первоначальные рекомендации? Подробности в статье.

❗️статья на medium.com

🔥8👍1

3.85K views06:04

Мониторим ИТ

Пишем экспортёр данных Prometheus для ОС «Нейтрино»

Так как Prometheus широко распространен, то для сбора и предоставления данных о метриках в нужном формате существует большое множество различных экспортёров, но все они либо заточены под работу на конкретных устройствах, либо избыточны, и содержат массу зависимостей.

Автору этой статьи требовался достаточно простой текстовый экспортёр, который бы стабильно работал в условиях использования встраиваемых систем с различными архитектурами процессора, и учитывал бы особенности и ограничения ОС.

👍5🔥5❤2⚡1

4.47K views12:02

Мониторим ИТ

Все лгут: почему не стоит слепо доверять данным в Prometheus и что важно учитывать при их интерпретации

В этой статье разбирается, в каких случаях не стоит доверять данным Prometheus, и разбираются особенности работы lookback-delta, оконных функций и Federation API. В итоге вы сможете корректно интерпретировать данные с учётом особенностей этой и других систем мониторинга на базе TSDB. Читать дальше на Хабре.

🔥13👍3

3.6K views09:33

Мониторим ИТ

Авто-ресурсы в Kubernetes, Pulumi NEO и Google MCP: инфраструктура на автопилоте

🔔Всем срединедельный DevOps! Обсудим свежие апдейты авто-выделения ресурсов в K8s и инструментов GitOps. Полезно тем, кто хочет меньше крутить кластеры вручную: автоматизировать реакцию на инциденты, сократить ручные kubectl apply, ускорить rollout и вернуть сервисы в строй до того, как прилетит алерт.

🟡 Kubernetes 1.34 и динамическое выделение ресурсов
В версии Kubernetes 1.34 кластер сам подбирает ресурсы GPU, CPU и I/O под конкретные задачи — без необходимости заранее прописывать лимиты в PodSpec. Теперь через API можно запрашивать устройства с нужными параметрами (тип GPU, версия CUDA, объём памяти) — и Kubernetes подберёт подходящее оборудование.
Это снижает долю простаивающих ресурсов, особенно при ML- и AI-нагрузках, где требования к железу меняются на лету.

⚫️ Pulumi NEO упрощает GitOps
Pulumi NEO читает IaC-код, сам формирует план изменений инфраструктуры, проверяет его через Policy as Code и применяет. Он понимает зависимости, окружения и может откатывать изменения без ручного kubectl apply. Полезен, когда GitOps-потоки разрастаются, а ручное управление окружениями тормозит релизы.

🟡 Google MCP для баз данных
Google представил MCP Toolbox — серверный набор инструментов, который реализует MCP для безопасной автоматизации доступа к базам данных. SQL-операции задаются декларативно в tools.yaml , а MCP управляет подключениями, пулами и правами доступа. Поддерживает Cloud SQL, AlloyDB, Spanner, PostgreSQL и MySQL.Система следит за нагрузкой, масштабирует кластеры и перестраивает схемы без ручного вмешательства DBA. Ещё один шаг к инфраструктуре, где всё крутится само.

🚀Пусть кластер решает проблемы сам — мы расскажем, как это сделать до появления алерта.
Подробнее на DevOps FM.

#DevOps #Kubernetes #SRE

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8⚡2❤1

3.65K views08:01

Мониторим ИТ

Мониторинг истории активных сессий в базах данных

История активных сессий (Active Session History, ASH) — очень удобный способ получения информации о работе БД в кратком виде. Когда важно максимально быстро отследить, что происходит с системой в настоящее время, оценить развитие текущей ситуации — это рабочая активность или начало каких‑либо проблем — в том числе, через быстрый просмотр baselines в недавнем прошлом системы и сравнить их с текущими данными.

В статье разбирается использование open-source инструмент Dimension-UI на задаче мониторинга истории активных сессий в базах данных Oracle, PostgreSQL, ClickHouse и MS SQL Server в режиме реального времени.

Репыч на Гитхаб

🔥9❤2👍2👎1

3.44K views12:05

Мониторим ИТ

Alertmanager-jira для интеграции алертов в jira

Знакомьтесь с alertmanager-jira — инструментом для интеграции Alertmanager (с Prometheus или VictoriaMetrics). Это плагин, который создаёт и управляет задачами в Jira на основе алертов, с акцентом на гибкость. Написан на Quarkus, лёгкий и готов к деплою в docker (podman). Читать дальше.

🔥8❤3

3.15K views14:04

Мониторим ИТ

elephantshark

Elephantshark помогает отслеживать и устранять неполадки сетевого трафика Postgres. Это открытая утилита.

Репыч на Гитхабе

🔥8

3.09K views06:01

Мониторим ИТ

Kubernetes Monitoring Metrics That Improve Cluster Reliability

В этой статье приведены метрики мониторинга Kubernetes, которые помогают выявлять проблемы на ранних этапах, повышать надежность и поддерживать максимальную производительность кластера.

Кластер Kubernetes может генерировать более 1400 метрик без предварительной настройки. Это огромный объём данных, который приходится анализировать, особенно когда вы устраняете неполадки в работе производства посреди ночи.

Главное — знать, какие метрики дают наибольшую информацию, при этом минимизируя шум. Именно на эти сигналы стоит обращать внимание, когда нужны быстрые ответы.

🔥8👍1

2.84K views09:37

Мониторим ИТ

Без паники: как работает комплексный мониторинг

В этой статье с нами делится Денис Мухин, руководитель управления мониторинга в РТК-ЦОД, тем как должен работать грамотный мониторинг и зачем он вообще нужен.

Похоже на некий овервью используемого стека мониторинга. Лучше бы рассказали подробно про каждую систему и как она работает. Судя по скриншотам, у них полно самописного ~~бобра~~ добра.

🔥8👍1

3.09K views13:36

Мониторим ИТ

Эффективный мониторинг облачных решений: первые шаги от метрик к асинхронным задачам

Пост на Хабре от Yandex Cloud. Рассказывают про реальные сценарии использования мониторинга облачных решений: покажут как настроить дашборды, быстро проверить гипотезы при расследовании инцидента, а в конце собераны лучшие практики для настройки мониторинга.

🔥7👎2

3.09K views06:03

Мониторим ИТ

How Should You Compensate Your Employees for Being On Call?

Статья от PagerDuty о том, как правильно платить дежурным инженерам за работу. Спойлер: платите им на основе доступности сервисов. Как вам такой вариант?

🔥5👍1

2.96K views11:55

Мониторим ИТ

wave

Wave отслеживает Deployments, StatefulSets и DaemonSets в кластере Kubernetes и следит за тем, чтобы их модули всегда имели актуальную конфигурацию.

Путем мониторинга смонтированных ConfigMaps и Secrets Wave может инициировать последовательное обновление Deployment при изменении смонтированной конфигурации.

Репыч на Гитхаб

GitHub - wave-k8s/wave: Kubernetes configuration tracking controller

Kubernetes configuration tracking controller. Contribute to wave-k8s/wave development by creating an account on GitHub.

🔥5❤2👍2👎1

3.54K views15:12

Мониторим ИТ

Как я пришел к SLO: От хаоса алертов к осознанности

Опыт SRE-инженера из Ви.Tech (IT-дочка ВсеИнструменты.ру)

🔥7👍2

3.06K views07:00

Мониторим ИТ

Учебный центр Галс Софтвэр приглашает на осеннюю серию тренингов-интенсивов по Elasticsearch и OpenSearch.

📅 ElasticSearch База 22-24 октября 2025

📅 OpenSearch База 29-31 октября 2025

Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с соответствующей системой сразу после прохождения тренинга.

Мы опросили участников предыдущих потоков и сформулировали основные преимущества от прохождения тренингов:

📖 устранить пробелы. Часто знания по соответствующей системе ограничиваются эпизодическим изучением документации и фрагментарны. Интенсивы помогут систематизировать знания и откроют для вас новые возможности уже знакомой системы.

📖 делать своими силами. Участие подрядчиков в проектах внедрения подразумевает предоставление доступа в ваше окружение. Прохождение официальных тренингов позволит вам выполнять работы силами штатных сотрудников.

📖 распространять знания. Сотрудники, прошедшие тренинг, не просто совершенствуют свои собственные технические навыки — они привносят полученные знания в коллектив и делятся ими со своими коллегами.

❗️Полное расписание тренингов.

Подробную информацию вы можете запросить, написав @galssoftware или через почту hello@gals.software.

🔥6❤2👍1👎1

2.88K views10:40

Мониторим ИТ

Auto-Instrumenting Go Applications Without Modifying Source Code

Go компилируется статически, то есть весь код и библиотеки встраиваются в исполняемый файл во время компиляции. Из-за этого традиционная автоматическая инструментация, основанная на динамическом подключении к функциям во время выполнения, не работает нормально. В отличие от таких языков, как Python или JavaScript, в Go отсутствуют хуки во время выполнения для перехвата вызовов библиотек, поэтому разработчикам обычно приходится вручную добавлять трассировку и распространение контекста, что усложняет инструментацию и повышает вероятность ошибок.

Инструментарий eBPF решает эту проблему, выполняя трассировку на уровне ядра, вне самой программы. Он может перехватывать все сетевые вызовы, системные вызовы и события ввода-вывода, обеспечивая полную наблюдаемость без изменения кода Go. По сути, он видит всё, что может скрывать вшитый двоичный код Go. Читать дальше.

❗️ Статья на medium.com

🔥7👍1👎1

2.85K views13:00

Мониторим ИТ

Postmortem без обвинений: Миф или реальность?

Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды.

Статистика, которая отрезвляет:

🚀 85% проблем в production — системные, а не человеческие ошибки (Google SRE)

🚀 94% инцидентов имеют множественные причины (STELLA Report)

🚀 Команды с культурой обвинений имеют в 3 раза больше повторных инцидентов

Читать дальше на Хабре

🔥10👍4❤2

2.96K views06:00

Мониторим ИТ

Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

В этой статье автор делится практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.

Репыч Uptrace на Гитхабе

🔥11❤1👍1

3.54K views13:02

Мониторим ИТ

5 трюков в bash, которые сделают вас лучшим SRE

При отладке проблемы в боевой среде каждая секунда на счету. Хотя, большинство инженеров знают основной bash-команды, разница между джуном и синьором SRE часто заключается в знании этих мощных, но малоизвестных bash-функций, которые могут превратить 30-минутный поиск проблемы в 5-минутную легкую прогулку. Действительно, полезные советы

5 трюков в bash, которые сделают вас лучшим SRE

Перевод сделан специально для телеграм-канала Мониторим ИТ.

🔥14👍6👎5

4.14K views06:01

Мониторим ИТ

pg_expecto: Аудит производительности инфраструктуры при нагрузочном тестировании СУБД PostgreSQL

В этой статье мы рассмотрено, как расширение pg_expecto объединяет метрики инфраструктуры и PostgreSQL в едином месте. Вы узнаете как превратить разрозненные данные в целостную картину. Читать на Хабре.

🔥6👎4👍1

3.42K views08:38

Мониторим ИТ

Why I recommend native Prometheus instrumentation over OpenTelemetry

Учитывая хайп вокруг OpenTelemetry (OTel), может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования приложений. В некоторых ситуациях стоит использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если вы хотите получить наилучший опыт мониторинга. В этой статье рассмотрены причины такого подхода.

🔥7❤3👍2

3.17K views06:06