Мониторим ИТ
8.24K subscribers
253 photos
1 video
2 files
1.59K links
Канал о наблюдаемости (Observability): логи, трейсы, метрики.

Канал в MAX: https://max.ru/id182905929815_biz

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux

@zabbix_ru — Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Stop Hunting Logs: How OpenTelemetry Brings Metrics, Logs, and Traces Together

В прошлом году во время инцидента я отлаживал ошибку платежа, используя все стандартные инструменты. Grafana показывала скачки загрузки CPU. CloudWatch отображал логи, разбросанные по трем сервисам. Jaeger показал 50 похожих трейсов. Спустя двадцать минут я все еще не мог ответить на основной вопрос: «Какая из трассировок соответствует фактическому запросу, вызвавшему ошибку?» Оповещение сообщало о сбое платежей. В логах были ошибки. Трейсы существовали. Но ничто не связывало их. В итоге я искал идентификаторы запросов в разных группах логов, пока не нашел виновника.

Проблема заключалась не в инструментах или данных. И того, и другого у нас было предостаточно. Проблема была в корреляции, или, вернее, в её полном отсутствии.


В этой статье показано, как создать инструмент наблюдаемости с помощью OpenTelemetry. Вы получите метрики, журналы и трейсы, проходящие через единый конвейер с общим контекстом, который позволит за считанные секунды, а не часы, перейти от оповещения к трейсам.

@monitorim_it
🔥7👍53👎1
Мониторинг того, что нельзя «пощупать»: как следить за cron-задачами, бэкапами и серверами за NAT с помощью Heartbeat

В статье рассказывают про PingZen — условно бесплатный инструмент для бесплатных проверок. Кстати, есть и аналог в лице Healthchecks. Также условно-бесплатный.

@monitorim_it
🔥6👍52
Mastering the OpenTelemetry Transform Processor

OpenTelemetry Collector включает в себя широкий спектр процессоров для решения распространенных задач. Вы можете использовать процессор атрибутов для обработки пар ключ-значение, процессор ресурсов для изменения метаданных на уровне ресурсов, а также ряд других для фильтрации, пакетной обработки или маршрутизации телеметрии.

Вам может потребоваться реструктурировать тело лога, вычислить новый атрибут на основе двух существующих полей, преобразовать тип метрики или перенести атрибут уровня записи на уровень ресурса. В этот момент специализированных обработчиков становится недостаточно, и вам требуется что-то более специфическое.


В статье разобраны принципы работы Transform Processor и приведены несколько интересных примеров.

@monitorim_it
🔥6👍4
Distributed tracing: от 100% error rate до первопричины за 60 секунд

В статье пошаговый разбор расследования ошибок в микросервисах: граф сервисов, хронология трейсов, корреляция логов и структурированная отладка на примере Uptrace.

Репыч Uptrace на Гитхабе

@monitorim_it
👍10🔥6
Гайд по быстрому мониторингу Linux-хостов в Grafana без Zabbix (спойлер: но с Prometheus)

Когда мы только приступали к задаче, первой мыслью, конечно, был Zabbix, как и у половины планеты. Но у нас никто не горел желанием поднимать еще одну систему, раскатывать агенты, подбирать шаблоны и разбираться с нюансами. Времени, как обычно, не завезли. А вот Grafana у нас уже была, поэтому я подумал — а что, если просто использовать то, что уже есть? Так я и наткнулся на связку «node_exporter → Prometheus → Grafana».


Подробности в статье.

@monitorim_it
👍7👎6🔥63
AI Agents Observability with OpenTelemetry and the VictoriaMetrics Stack

В этой статье из блога VM в формате воркшопа рассказывают как настроить инструментирование ИИ-агентов при помощи стека VictoriaMetrics + VictoriaLogs + VictoriaTraces.

@monitorim_it
🔥8👍73👎1
How OpenTelemetry Tracing Works (with Examples)

В этой статье рассмотрены основная модель данных трейсинга и структура трассировок, как API трейсинга и SDK взаимодействуют друг с другом, как автоматические и ручные методы измерения дополняют друг друга,
место OpenTelemetry Collector в формировании процесса мониторинга.

@monitorim_it
🔥8👍41
О чём логи Kubernetes не расскажут вам во время инцидента

Ритуал обработки алерта:

🔴 Срабатывает алерт.
🔴 Вы открываете логи.
🔴 Они выглядят нормально.
🔴 А продакшен всё ещё «горит».

Логи Kubernetes отлично показывают, что, по мнению приложения, произошло. Но они не помогают понять, почему система ведет себя именно так. Именно в этот промежуток времени тратится большая часть времени впустую во время инцидентов.

В статье рассказывают как подняться на уровень выше логов и посмотреть на то, что предшествовало проблеме. Только опыт.

@monitorim_it
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4
Benchmarking Kubernetes Log Collectors: vlagent, Vector, Fluent Bit, OpenTelemetry Collector, and more

В обойме VictoriaMetrics есть vlagent — высокопроизводительный сборщик логов для VictoriaLogs. Для проверки его производительности и корректности в условиях реальной производственной нагрузки был разработан набор бенчмарков и проведены тесты на 8 популярных сборщиках логов. В этой статье описана методология, результаты по производительности, использованию ресурсов и корректности доставки.

@monitorim_it
🔥10👍31
Демо день Рег.облака — 16 апреля

Главная продуктовая конференция облачного и Bare Metal направления Рег.ру состоится в Центре событий РБК в Москве. Среди тем — актуальные сценарии масштабирования инфраструктуры, перспективы ИИ для бизнеса, облака 152-ФЗ, Terraform, и вообще — какие эффективные способы снизить издержки на IT существуют в 2026 году. Среди гостей — эксперты из X5 Tech, банка Синара, СОГАЗа и РБК.

Участие бесплатное, но надо зарегистрироваться, количество мест ограничено. Регистрация и другие подробности — вот здесь: https://demoday.reg.cloud/
🔥6👍2👎1
Эволюция логирования в Lenta tech: грабли, миграции и неочевидный финал с Victoria Logs

В статье рассказано о том, как за последние четыре года менялась система логирования в Ленте, какие решения они принимали по ходу роста инфраструктуры и к какому результату в итоге пришли. Спойлер: Loki -> Clickhouse -> VictoriaLogs.

@monitorim_it
👍11🔥8🤔2👎1
Как в Авито построили систему мониторинга BGP

В этой статье рассказано, зачем в Авито централизованно собирают и анализируют маршрутную информацию с сетевых устройств, причём тут протокол BMP и как устроена их система мониторинга. В конце статьи лаба на docker-compose, которую вы можете запустить у себя и посмотреть на систему в действии.

Статья будет полезна в первую очередь сетевым инженерам, командам SRE и мониторинга, которые отвечают за доступность и качество сервиса.

Репыч системы на Гитхаб

@monitorim_it
👍9🔥7
Логи: всё, что нужно знать тестировщику

Логи — это записи о том, как работает любая система: будь то сайт, мобильное приложение или микросервис. Логирование происходит автоматически, информация сохраняется в файлах или специальных сервисах. Пользователь этих записей не видит, но для тестировщика логи особенно важны — ведь по ним можно определить, что происходило в системе при сбое, даже если на фронтенде отображается только общее сообщение об ошибке.


Обзорная статье об инструментах логирования
🔥32
Native OpenTelemetry inside Alloy: Now you can get the best of both worlds

Начиная с версии 1.14.0, Alloy включает экспериментальный механизм OpenTelemetry, который позволяет настраивать Alloy с помощью стандартного YAML-файла OTEL-коллектора. Эта функция необязательна и полностью обратно совместима, поэтому существующая конфигурация Alloy не изменится, если вы не включите поддержку OpenTelemetry. Подробности в блоге Grafana.

А кто-то из читателей канала пользуется Alloy? Расскажите о своем опыте.

@monitorim_it
👍6🔥6
Неочевидные оптимизации Iceberg таблиц

Iceberg становится де-факто отраслевым стандартом при построении lakehouse в России. Для сравнения, на последней конференции smart-data, Iceberg по частоте упоминания уступает только Spark. Это значит, что уверенное владение механикой работы Iceberg становится обязательным навыком для инженеров данных и платформенных команд.


Вы спросите: а при чем тут мониторинг и Iceberg? А при том, что в таких системах как Apache Iceberg или Delta Lake можно эффективно хранить Observability-данные. При этом, конечно, правильно все настроив. В статье на Хабре вы найдете подробности.

Есть еще одна статья от Clickhouse для погружения в тему. Здесь вы узнаете о премуществах использования ClickStack (observability-платформы) совместно с Clickhouse и, например, Iceberg.

@monitorim_it
👍5🔥5
Создание платформы наблюдаемости с помощью SigNoz, ClickHouse и OpenTelemetry

В этой статье вы узнаете об использовании стека наблюдаемости без Prometheus. Для промежуточного хранения данных используется Kafka. Весьма интересный подход.

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍31
linnix

Утилита top показывает 80% загрузки CPU, Prometheus показывает высокую задержку, но какой именно pod тормозит работу вашего платежного сервиса?

Linnix использует eBPF + PSI (Pressure Stall Information) для решения этой проблемы. PSI измеряет фактическое время простоя — не использование ресурсов, а конкуренцию за ресурсы. Pod, использующий 40% CPU при 60% PSI, работает хуже, чем под, использующий 100% CPU при 5% PSI.

Что обнаруживает Linnix:

🚀 Шумные соседи: какой контейнер морит голодом другие?

🚀 Форк-штормы: неконтролируемое создание процессов перед сбоем узла.

🚀 Причина задержки: «Pod X вызвал задержку в 300 мс у pod Y».

🚀 Насыщение PSI: нагрузка на CPU/ввод-вывод/память, которые не отображаются в top.

Репыч на Гитхаб

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍21
Собираем NetFlow-статистику через eBPF: от физических серверов до K8s

Когда речь идёт о расследовании инцидентов, связанных с безопасностью своих ресурсов, «приблизительной» статистики недостаточно — нужны подробности. Однако, встроенные в сетевое оборудование решения (вроде sFlow/NetFlow) с этим, как правило, не справляются:

🚀 попытки передать полную телеметрию слишком сильно нагружают сетевое «железо»;

🚀 семплирование sFlow не позволяет получить наблюдаемость на уровне каждой сессии;

🚀 экспорт специфических полей данных часто невозможен в принципе.

Поэтому мы реализовали собственную систему сбора данных. Она позволяет «видеть» не только трафик на границе сети, но и весь жизненный цикл каждой сессии.

За основу взяли eBPF/XDP и NetFlow. Почему именно их? Потому что у нас на BPF построена целая платформа для обработки трафика со своими нюансами и особенностями. NetFlow — это лишь один её элемент.

ИТ-инфраструктуру нашей компании можно условно разделить на 3 типа: физические серверы, виртуализация и Kubernetes-кластеры. У каждого из этих типов есть свои особенности сбора статистики, о которых рассказано в статье.


Читать дальше на Хабре

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍41
OpenTelemetry со Spring Boot

В экосистеме Spring большая часть телеметрии была завязана на Micrometer Project (Был ещё spring-cloud-sleuth если кто помнит). Но полноценного all-in-one решения для того, чтобы Spring Boot приложение просто начало экспортировать телеметрию по OTLP не было. До Spring Boot 4.

На данный момент для интеграции OTel в Spring Boot приложения есть 3 пути: Java Agent (минимум кода, но чувствителен к версиям и может конфликтовать с другими агентами), сторонний OTel starter (стартер от самих OpenTelemetry, но тянет alpha-зависимости) и новый spring-boot-starter-opentelemetry, доступный в Spring Boot 4.0.

Подробнее в статье
.

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Media is too big
VIEW IN TELEGRAM
Когда мониторинг молчит, а сервис уже падает

«404 секунды» — ИТ-шоу для тех, у кого нет времени на лишнее: ровно 404 секунды про инженерные темы, которые реально бьют по продакшену. DevOps, SRE, техлиды — здесь не новости, а выжимка того, что влияет на инфраструктуру прямо сейчас.

Новый выпуск — про observability. Тема, с которой многие сталкивались на практике. Когда алерты перестают восприниматься как сигнал — классический alert fatigue: все орет, ты фильтруешь, а в итоге важное легко пропустить. В выпуске как раз про это: почему привычный мониторинг не справляется с микросервисами и Kubernetes, как начать понимать причины, а не только чинить симптомы, и что делать с alert fatigue, когда алертов становится слишком много.

Отдельно ведущий говорит про AI в мониторинге и инцидентах, как автоматизация постепенно меняет подход к наблюдаемости, и приводит примеры из практики, например, как такие подходы реализуются через платформы вроде Monium, которые используют сервисы и продукты Яндекса.


Смотреть и слушать выпуск тут: YouTube, VK Видео и Яндекс Музыка. И подписывайтесь, чтобы быть в теме без лишнего шума.
🔥9👍4👎3
Observability Lessons From OpenAI

В этой статье в блоге VictoriaMetrics рассказывают (и делятся конфигурацией docker-compose) как настроить локальную наблюдаемость локального ИИ-агента при помощи VictoriaMetrics, VictoriaLogs, VictoriaTraces и OTel-коллектора.

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4