Мониторим ИТ
8.07K subscribers
200 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Как я пришел к SLO: От хаоса алертов к осознанности

Опыт SRE-инженера из Ви.Tech (IT-дочка ВсеИнструменты.ру)
🔥7👍2
Учебный центр Галс Софтвэр приглашает на осеннюю серию тренингов-интенсивов по Elasticsearch и OpenSearch.

📅 ElasticSearch База 22-24 октября 2025

📅 OpenSearch База 29-31 октября 2025

Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с соответствующей системой сразу после прохождения тренинга.

Мы опросили участников предыдущих потоков и сформулировали основные преимущества от прохождения тренингов:

📖 устранить пробелы. Часто знания по соответствующей системе ограничиваются эпизодическим изучением документации и фрагментарны. Интенсивы помогут систематизировать знания и откроют для вас новые возможности уже знакомой системы.

📖 делать своими силами. Участие подрядчиков в проектах внедрения подразумевает предоставление доступа в ваше окружение. Прохождение официальных тренингов позволит вам выполнять работы силами штатных сотрудников.

📖 распространять знания. Сотрудники, прошедшие тренинг, не просто совершенствуют свои собственные технические навыки — они привносят полученные знания в коллектив и делятся ими со своими коллегами.

❗️Полное расписание тренингов.

Подробную информацию вы можете запросить, написав @galssoftware или через почту hello@gals.software.
🔥62👍1👎1
Auto-Instrumenting Go Applications Without Modifying Source Code

Go компилируется статически, то есть весь код и библиотеки встраиваются в исполняемый файл во время компиляции. Из-за этого традиционная автоматическая инструментация, основанная на динамическом подключении к функциям во время выполнения, не работает нормально. В отличие от таких языков, как Python или JavaScript, в Go отсутствуют хуки во время выполнения для перехвата вызовов библиотек, поэтому разработчикам обычно приходится вручную добавлять трассировку и распространение контекста, что усложняет инструментацию и повышает вероятность ошибок.

Инструментарий eBPF решает эту проблему, выполняя трассировку на уровне ядра, вне самой программы. Он может перехватывать все сетевые вызовы, системные вызовы и события ввода-вывода, обеспечивая полную наблюдаемость без изменения кода Go. По сути, он видит всё, что может скрывать вшитый двоичный код Go. Читать дальше.

❗️ Статья на medium.com
🔥7👍1👎1
Postmortem без обвинений: Миф или реальность?

Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды.

Статистика, которая отрезвляет:

🚀 85% проблем в production — системные, а не человеческие ошибки (Google SRE)

🚀 94% инцидентов имеют множественные причины (STELLA Report)

🚀 Команды с культурой обвинений имеют в 3 раза больше повторных инцидентов

Читать дальше на Хабре
🔥10👍42
Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

В этой статье автор делится практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.

Репыч Uptrace на Гитхабе
🔥111👍1
5 трюков в bash, которые сделают вас лучшим SRE

При отладке проблемы в боевой среде каждая секунда на счету. Хотя, большинство инженеров знают основной bash-команды, разница между джуном и синьором SRE часто заключается в знании этих мощных, но малоизвестных bash-функций, которые могут превратить 30-минутный поиск проблемы в 5-минутную легкую прогулку. Действительно, полезные советы
🔥14👍6👎5
pg_expecto: Аудит производительности инфраструктуры при нагрузочном тестировании СУБД PostgreSQL

В этой статье мы рассмотрено, как расширение pg_expecto объединяет метрики инфраструктуры и PostgreSQL в едином месте. Вы узнаете как превратить разрозненные данные в целостную картину. Читать на Хабре.
🔥6👎4👍1
Why I recommend native Prometheus instrumentation over OpenTelemetry

Учитывая хайп вокруг OpenTelemetry (OTel), может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования приложений. В некоторых ситуациях стоит использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если вы хотите получить наилучший опыт мониторинга. В этой статье рассмотрены причины такого подхода.
🔥73👍2
Пример настройки стека мониторинга: Prometheus, Loki, Grafana, Promtail и Tempo

Наблюдаемость — это уже не роскошь, а необходимость. В этой статье рассказано, как настроить полноценный стек мониторинга с открытым исходным кодом для приложения на базе Node.js (NestJS) с использованием Prometheus, Loki, Grafana, Promtail и Tempo. В итоге вы получите полную observability-модель: метрики, логи и трассировки — всё на одном дашборде.
🔥7👎6
On-call ротация без выгорания

«Я уволился из своей первой работы SRE‑инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять «по‑настоящему», потому что «горячий фикс же работает». На восьмое утро я пришел в офис и положил заявление на стол.

Это было пять лет назад. С тех пор я прошел через четыре компании, построил on‑call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on‑call ротацию, которая не приведет к массовым увольнениям.» Читать дальше на Хабре.
🔥13👎6👍51
Величие и нищета Виктории и Прометея

«Итак, у меня был сервис. Обычная молотилка данных, каждый с такой хотя бы раз да сталкивался - что-то на входе, что-то на выходе, а внутри походы в базу, HTTP-вызовы, шаблоны, скриптовая логика... В общем, много всякого.

Ну, ладно, тут стоит сразу уточнить, что сервис с особенностями - молотилка данных устроена так, что пытается работать с разными форматами на входе и выходе, а внутри держать всё в одном представлении. Но вот из-за этой потребности работать с разным, внутреннее представление это - мапы, слайсы, мапы в слайсах, слайсы в мапах, да ещё и из всех щелей торчит куча метрик.

Беглый поиск привел к пакету https://github.com/VictoriaMetrics/metrics от авторов VictoriaMetrics - то, что в конечном итоге привело к написанию этой статьи. В любой инфраструктуре, с которой мне приходилось работать, Виктория всегда занимала почётное место Главного Хранилища Метрик, посему решено - время щупать новую библиотеку. Читать дальше на Хабре.
🔥10👍31
Observability vs Monitoring: за что вы платите?

Интересный разбор того, за что вы платите при выборе системы мониторинга. Кажется, написано от первого лица.

«Мы начинали как стартап с 10 серверами. Поставили Prometheus + Grafana + ELK. Бесплатно! Ну, почти бесплатно — нужны были серверы для запуска. $500 в месяц за инфраструктуру. Красота!

Потом мы выросли до 100 серверов. ELK начал требовать уже 5 нод для нормальной работы. Prometheus нужен был federation для сбора метрик. Появился dedicated инженер, который этим занимался. $5,000 за инфраструктуру + $10,000 за инженера = $15,000 в месяц. Уже не так весело.

На 500 серверах self-hosted решение превратилось в отдельный проект. Три инженера фултайм занимались только поддержкой мониторинга. Апгрейды, траблшутинг, оптимизация. $50,000 в месяц только на зарплаты. Плюс инфраструктура. Плюс то, что эти инженеры не делали продукт.»
🔥10👍8👎2
Дашборды: между красотой и эффективностью

В современном мире дашборды стали неотъемлемой частью любого бизнеса. Однако часто мы сталкиваемся с тем, что красивые, но бесполезные панели данных не приносят реальной пользы. В этой статье разбираются основные проблемы создания дашбордов и посмотрим, как их решить на практике (на примере Apache Superset).
🔥8👍2
sql-to-logsql

Веб-приложение, предоставляющее пользовательский интерфейс для запросов к данным VictoriaLogs или VictoriaTraces с помощью SQL.

Он позволяет писать SQL-запросы к данным логов и мгновенно преобразовывать их в запросы VictoriaLogs LogsQL. При необходимости он может выполнять полученные запросы LogsQL в VictoriaLogs и управлять представлениями, хранящимися на диске.

Репыч на Гитхаб

@monitorim_it
🔥13👍5🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
gdg

Grafana Dash-n-Grab (GDG) — простой в использовании интерфейс командной строки (CLI) для взаимодействия с API Grafana, позволяющим создавать резервные копии и восстанавливать дашборды, датасорсы и другие ресурсы.

Репыч на Гитхаб

@monitorim_it
🔥15👍8
runtime-radar

Это решение с открытым исходным кодом для мониторинга событий безопасности в контейнерных средах.

Репыч на Гитхаб

@monitorim_it
🔥13👍2
kubezonnet

Утилита мониторинга k8s с помощью Prometheus для кластеров на базе Cilium.

Репыч на Гитхаб
🔥6👍2
На этом скриншоте вы видите сервисно-ресурсную модель интернет-магазина. А также пару проблем на фронтэнд и кэш-сервере. Решение нативно встраивается в Zabbix и позволяет отслеживать здоровье компонентов любого сервиса: интернет-банк, интеграции с внешними системами, порталы и т.д. и т.п.

Вам больше не придется искать сторонние решения для визуализации структуры сервисов. Называется оно IntelliTrend Advanced Services. О нём (и не только о нём) расскажет на вебинаре 11 ноября специально приглашенный гость.

А уже завтра, 5 ноября, Галс Софтвэр приглашает вас принять участие в вебинаре Структура базы данных Zabbix: что там под капотом. Начало в 11 мск 5 ноября. Этот вебинар уже анонсирован и регистрация на него открыта. Приходите!

Анонсы всех мероприятий по Zabbix и другую полезную информацию вы можете отслеживать в канале @zabbix_ru. Кстати, вчера там вышел пост со ссылками на 12 переводов статей по работе с Zabbix.
🔥10👍2👎2🤔2
Масштабирование: создание платформы Prometheus + Loki производительностью 100 ТБ/день

Масштабирование окружения для наблюдаемости до 100 ТБ/день требует тщательного планирования и постепенных улучшений. В этой статье рассматриваются десять методов с объяснениями, диаграммами ASCII и фрагментами кода, которые помогут спроектировать, развернуть и эксплуатировать высоконагруженный стек наблюдаемости Prometheus и Loki, обеспечивающий бесперебойную обработку метрик и логов даже при большой нагрузке. Читать дальше.
🔥8👍6👎1
Поприветствуйте Observability 3.0

Если вы разработчик, SRE или инженер DevOps, вам интересно, что все это значит и с чего начать, то эта статья станет введением для новичков в эволюцию наблюдаемости — от версии 1.0 до сегодняшнего более интеллектуального, экономически обоснованного выбора.

P.S. В конце статьи приводятся две коммерческие системы, но у них есть вполне себе открыты аналоги.
👍8🔥7
mcp-grafana

MCP для Grafana. Достаточно функциональное решение.

Репыч на Гитхаб
🔥12👍3