Мониторим ИТ
8.06K subscribers
199 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Why I recommend native Prometheus instrumentation over OpenTelemetry

Учитывая хайп вокруг OpenTelemetry (OTel), может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования приложений. В некоторых ситуациях стоит использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если вы хотите получить наилучший опыт мониторинга. В этой статье рассмотрены причины такого подхода.
🔥73👍2
Пример настройки стека мониторинга: Prometheus, Loki, Grafana, Promtail и Tempo

Наблюдаемость — это уже не роскошь, а необходимость. В этой статье рассказано, как настроить полноценный стек мониторинга с открытым исходным кодом для приложения на базе Node.js (NestJS) с использованием Prometheus, Loki, Grafana, Promtail и Tempo. В итоге вы получите полную observability-модель: метрики, логи и трассировки — всё на одном дашборде.
🔥7👎6
On-call ротация без выгорания

«Я уволился из своей первой работы SRE‑инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять «по‑настоящему», потому что «горячий фикс же работает». На восьмое утро я пришел в офис и положил заявление на стол.

Это было пять лет назад. С тех пор я прошел через четыре компании, построил on‑call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on‑call ротацию, которая не приведет к массовым увольнениям.» Читать дальше на Хабре.
🔥13👎6👍51
Величие и нищета Виктории и Прометея

«Итак, у меня был сервис. Обычная молотилка данных, каждый с такой хотя бы раз да сталкивался - что-то на входе, что-то на выходе, а внутри походы в базу, HTTP-вызовы, шаблоны, скриптовая логика... В общем, много всякого.

Ну, ладно, тут стоит сразу уточнить, что сервис с особенностями - молотилка данных устроена так, что пытается работать с разными форматами на входе и выходе, а внутри держать всё в одном представлении. Но вот из-за этой потребности работать с разным, внутреннее представление это - мапы, слайсы, мапы в слайсах, слайсы в мапах, да ещё и из всех щелей торчит куча метрик.

Беглый поиск привел к пакету https://github.com/VictoriaMetrics/metrics от авторов VictoriaMetrics - то, что в конечном итоге привело к написанию этой статьи. В любой инфраструктуре, с которой мне приходилось работать, Виктория всегда занимала почётное место Главного Хранилища Метрик, посему решено - время щупать новую библиотеку. Читать дальше на Хабре.
🔥10👍31
Observability vs Monitoring: за что вы платите?

Интересный разбор того, за что вы платите при выборе системы мониторинга. Кажется, написано от первого лица.

«Мы начинали как стартап с 10 серверами. Поставили Prometheus + Grafana + ELK. Бесплатно! Ну, почти бесплатно — нужны были серверы для запуска. $500 в месяц за инфраструктуру. Красота!

Потом мы выросли до 100 серверов. ELK начал требовать уже 5 нод для нормальной работы. Prometheus нужен был federation для сбора метрик. Появился dedicated инженер, который этим занимался. $5,000 за инфраструктуру + $10,000 за инженера = $15,000 в месяц. Уже не так весело.

На 500 серверах self-hosted решение превратилось в отдельный проект. Три инженера фултайм занимались только поддержкой мониторинга. Апгрейды, траблшутинг, оптимизация. $50,000 в месяц только на зарплаты. Плюс инфраструктура. Плюс то, что эти инженеры не делали продукт.»
🔥10👍8👎2
Дашборды: между красотой и эффективностью

В современном мире дашборды стали неотъемлемой частью любого бизнеса. Однако часто мы сталкиваемся с тем, что красивые, но бесполезные панели данных не приносят реальной пользы. В этой статье разбираются основные проблемы создания дашбордов и посмотрим, как их решить на практике (на примере Apache Superset).
🔥8👍2
sql-to-logsql

Веб-приложение, предоставляющее пользовательский интерфейс для запросов к данным VictoriaLogs или VictoriaTraces с помощью SQL.

Он позволяет писать SQL-запросы к данным логов и мгновенно преобразовывать их в запросы VictoriaLogs LogsQL. При необходимости он может выполнять полученные запросы LogsQL в VictoriaLogs и управлять представлениями, хранящимися на диске.

Репыч на Гитхаб

@monitorim_it
🔥13👍5🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
gdg

Grafana Dash-n-Grab (GDG) — простой в использовании интерфейс командной строки (CLI) для взаимодействия с API Grafana, позволяющим создавать резервные копии и восстанавливать дашборды, датасорсы и другие ресурсы.

Репыч на Гитхаб

@monitorim_it
🔥15👍8
runtime-radar

Это решение с открытым исходным кодом для мониторинга событий безопасности в контейнерных средах.

Репыч на Гитхаб

@monitorim_it
🔥13👍2
kubezonnet

Утилита мониторинга k8s с помощью Prometheus для кластеров на базе Cilium.

Репыч на Гитхаб
🔥6👍2
На этом скриншоте вы видите сервисно-ресурсную модель интернет-магазина. А также пару проблем на фронтэнд и кэш-сервере. Решение нативно встраивается в Zabbix и позволяет отслеживать здоровье компонентов любого сервиса: интернет-банк, интеграции с внешними системами, порталы и т.д. и т.п.

Вам больше не придется искать сторонние решения для визуализации структуры сервисов. Называется оно IntelliTrend Advanced Services. О нём (и не только о нём) расскажет на вебинаре 11 ноября специально приглашенный гость.

А уже завтра, 5 ноября, Галс Софтвэр приглашает вас принять участие в вебинаре Структура базы данных Zabbix: что там под капотом. Начало в 11 мск 5 ноября. Этот вебинар уже анонсирован и регистрация на него открыта. Приходите!

Анонсы всех мероприятий по Zabbix и другую полезную информацию вы можете отслеживать в канале @zabbix_ru. Кстати, вчера там вышел пост со ссылками на 12 переводов статей по работе с Zabbix.
🔥10👍2👎2🤔2
Масштабирование: создание платформы Prometheus + Loki производительностью 100 ТБ/день

Масштабирование окружения для наблюдаемости до 100 ТБ/день требует тщательного планирования и постепенных улучшений. В этой статье рассматриваются десять методов с объяснениями, диаграммами ASCII и фрагментами кода, которые помогут спроектировать, развернуть и эксплуатировать высоконагруженный стек наблюдаемости Prometheus и Loki, обеспечивающий бесперебойную обработку метрик и логов даже при большой нагрузке. Читать дальше.
🔥8👍6👎1
Поприветствуйте Observability 3.0

Если вы разработчик, SRE или инженер DevOps, вам интересно, что все это значит и с чего начать, то эта статья станет введением для новичков в эволюцию наблюдаемости — от версии 1.0 до сегодняшнего более интеллектуального, экономически обоснованного выбора.

P.S. В конце статьи приводятся две коммерческие системы, но у них есть вполне себе открыты аналоги.
👍8🔥7
mcp-grafana

MCP для Grafana. Достаточно функциональное решение.

Репыч на Гитхаб
🔥12👍3
Grafana Mimir 3.0 release: performance improvements, a new query engine, and more

В 2022 году Grafana представила Grafana Mimir — многопользовательскую базу данных временных рядов (TSDB) с открытым исходным кодом, горизонтально масштабируемую и предназначенную для долгосрочного хранения метрик Prometheus и OpenTelemetry. За прошедшие годы Mimir стал популярным бэкендом для работы с метриками в сообществе разработчиков ПО с открытым исходным кодом, насчитывающим 30 разработчиков и более 4,7 тысяч звёзд на GitHub.

Разработка Mimir 3.0 заняла три года, и в этой статье в блоге Grafana рассказывают о нововведениях.
🔥9👍31👎1
9 Logging Best Practices You Should Know

Логи — это не всё, что нужно для наблюдения , но их можно преобразовать из неструктурированных строк, разбросанных по серверам, в полезные сигналы, которые помогут получить ценную информацию. Список рекомендаций из этой статьи поможет вам в этом.
🔥13👍21
What's new in ClickStack. October '25

Напомню, ClickStack — это observability-решение на базе HyperDX (интерфейс) и Clickhouse (хранилище). Каждый месяц они выпускают дайджест с обновлениями. Этот за октябрь 2025.

Уже совсем скоро нас ждет релиз облачной Yandex Observability Platform, которая решает примерно те же самые задачи. И мне было бы очень интересно узнать какое из решений более экономично по эксплуатации в плане хранения/инджеста. Это, наверное, самая большая статья расходов на обслуживание стека мониторинга после оплаты работы инженеров мониторинга по сопровождению платформы.

❗️Если на этот канал подписан кто-то из команды ClickStack, приходите в комментарии или ко мне в личку, договоримся о вебинаре для уважаемых подписчиков этого канала.

❗️Представителей Yandex Observability Platform я тоже приглашаю рассказать о продукте на нашу аудиторию.
👍8🔥6
Logging Cheat Sheet

Цель этой шпаргалки — предоставить разработчикам рекомендации по созданию механизмов ведения логов приложений, особенно касающихся логов безопасности.

Ведение лога приложений должно быть единообразным в пределах приложения, единообразным во всем портфеле приложений организации и, где это применимо, использовать отраслевые стандарты, чтобы зарегистрированные данные о событиях могли использоваться, сопоставляться, анализироваться и управляться самыми разными системами.
🔥12👍31👎1
Мониторинг Angie с Prometheus и Grafana

Контроль основных метрик веб‑сервера или балансировщика — основа надежной работы системы. Использование встроенного экспортера Prometheus и визуализация через Grafana дают принципиально другие возможности. В этой статье рассказывают как запустить полноценную систему мониторинга Angie.
🔥10👍5
Gals Software и Zabbix приглашают вас на онлайн-митап 3 декабря

На вебинаре о нововведениях 8 версии расскажет СЕО Zabbix Алексей Владышев.

Программа вебинара (все выступления будут на русском языке)

🚀 Welcome Speech & Zabbix 8.0: A New Chapter in Monitoring
Alexei Vladishev, CEO & Founder, Zabbix, Latvia

🚀 Trigger Mastery in Zabbix: Practical Tips and Deep Insights Aleksandrs Petrovs-Gavrilovs, Zabbix Trainer, Zabbix, Latvia

🚀 The Power of Zabbix Tags Anton Kasimov, Zabbix Trainer, Gals Software, Kazakhstan

🚀 Zabbix Use Cases Samir Dzavadov, Head of Partnerships, Zabbix, Latvia

Регистрация

Еще больше анонсов мероприятий и другая полезная информация в канале @zabbix_ru
🔥7👍41👎1