What's new in ClickStack. November '25
ClickStack — это открытый observability-инструмент к которому я последние месяц-полтора активно присматриваюсь. Здесь и хранилище и UI в одном решении. Ниже привел наиболее интересные нововведения.
🚀 Service Map
В последнем релизе ClickStack обзавелся важным атрибутом observability-системы — Картой сервисов (Service Map). Пока что в бете, но этот функционал точно со временем перейдет в GA.
🚀 Фильтрация корневых операций
Исторически ClickStack возвращал все соответствующие запросу операции в результатах поиска, будь то корневая или дочерняя операция. Это означает, что одна и та же операция может отображаться несколько раз, если запросу соответствуют несколько результатов запроса. Для пользователей, работающих с большими объемами трейсов, это часто усложняло просмотр и сортировку. В последней версии появилась возможность фильтровать результаты поиска только по корневым операциям.
🚀 Подсветка атрибутов трейсов
Появилась возможность отображения определённых атрибутов непосредственно в результатах поиска.
🚀 Поиск по трейсам
В последней версии возможности поиска расширены за счёт добавления полноценных возможностей поиска Lucene непосредственно в представлении каскада трассировок. Поскольку каскад содержит как операции так и логи, часто поступающие из разных источников, в ClickStack предоставлены отдельные поля поиска для каждого источника.
🚀 Сравнение графиков
Появилось сравнение периодов для графиков. С помощью этой функции пользователи могут построить график для выбранного временного диапазона, а затем включить переключатель, чтобы наложить предыдущий период.
Подробнее читайте в блоге ClickHouse
ClickStack — это открытый observability-инструмент к которому я последние месяц-полтора активно присматриваюсь. Здесь и хранилище и UI в одном решении. Ниже привел наиболее интересные нововведения.
🚀 Service Map
В последнем релизе ClickStack обзавелся важным атрибутом observability-системы — Картой сервисов (Service Map). Пока что в бете, но этот функционал точно со временем перейдет в GA.
🚀 Фильтрация корневых операций
Исторически ClickStack возвращал все соответствующие запросу операции в результатах поиска, будь то корневая или дочерняя операция. Это означает, что одна и та же операция может отображаться несколько раз, если запросу соответствуют несколько результатов запроса. Для пользователей, работающих с большими объемами трейсов, это часто усложняло просмотр и сортировку. В последней версии появилась возможность фильтровать результаты поиска только по корневым операциям.
🚀 Подсветка атрибутов трейсов
Появилась возможность отображения определённых атрибутов непосредственно в результатах поиска.
🚀 Поиск по трейсам
В последней версии возможности поиска расширены за счёт добавления полноценных возможностей поиска Lucene непосредственно в представлении каскада трассировок. Поскольку каскад содержит как операции так и логи, часто поступающие из разных источников, в ClickStack предоставлены отдельные поля поиска для каждого источника.
🚀 Сравнение графиков
Появилось сравнение периодов для графиков. С помощью этой функции пользователи могут построить график для выбранного временного диапазона, а затем включить переключатель, чтобы наложить предыдущий период.
Подробнее читайте в блоге ClickHouse
👍5🔥5
A Complete Guide to OpenTelemetry Logs and Data Model
В этой статье подробно рассматривается подход OpenTelemetry к логированию, от модели данных и SDK до важнейшей роли мостов логов. Также показано, почему тесная корреляция между журналами и трассировками имеет решающее значение для отладки сложных взаимодействий сервисов.
Логи всегда играли ключевую роль в понимании поведения программного обеспечения. Они регистрируют события, ошибки и изменения состояния, раскрывая, что происходило внутри системы в определённый момент времени.
Но по мере перехода архитектур к микросервисам и распределённым системам работать со старой моделью разрозненных логов свободных форматов стало невозможно. Поскольку каждый сервис использует свой собственный формат логирования, устранение неполадок подобно чтению книги, каждая страница которой написана на разном языке.
OpenTelemetry был создан именно для решения проблемы фрагментации такого рода. Благодаря определению общей модели данных логов, а также нейтральных к языку программирования API и SDK, OTel предоставляет стандартный способ представления, обработки и экспорта журналов.
Цель состоит не в том, чтобы заменить существующие библиотеки журналирования, а в том, чтобы сделать их выходные данные совместимыми, последовательными и обогащенными той же контекстной информацией, которая используется для трассировок и метрик.
Эта унификация имеет важные последствия. После того, как логи будут представлены в модели OpenTelemetry, их можно будет обрабатывать в тех же конвейерах, что и метрики и трассировки, дополнять согласованными метаданными ресурсов и коррелировать с распределёнными трассировками. Вместо изолированных фрагментов текста логи становятся структурированными событиями, участвующими в полной истории наблюдения.
В этой статье подробно рассматривается подход OpenTelemetry к логированию, от модели данных и SDK до важнейшей роли мостов логов. Также показано, почему тесная корреляция между журналами и трассировками имеет решающее значение для отладки сложных взаимодействий сервисов.
🔥10👍2
Мой легковесный помощник: как я создал монитор системы, который не тормозит
Статья с описанием решения на Хабре
Репыч на Гитхаб
Работая за компьютером по 10-12 часов в день, я постоянно ловил себя на том, что проверяю диспетчер задач. То процессор грузится, то память подыхает, то диск трещит по швам. Стандартные инструменты Windows работают, но постоянно переключаться между окнами — то еще удовольствие.
Попробовал разные программы — одни слишком навороченные, другие жрут память как не в себя, третьи выглядят так, будто их делали в 2005 году. В какой-то момент мне это надоело, и я подумал: "А почему бы не сделать свой монитор? Простой, удобный и легкий".
Aether Monitor+ — это как раз та утилита, которой мне не хватало. Она висит поверх всех окон маленьким виджетом и показывает самое важное: загрузку процессора, использование памяти, свободное место на диске и температуру. Всё это в реальном времени, без лишних деталей.
Статья с описанием решения на Хабре
Репыч на Гитхаб
👎8🔥6👍1
Выложили запись Zabbix Meetup
3 декабря мы провели совместно с Zabbix уже наш второй онлайн-митап. На митапе выступил Алексей Владышев, CEO и основатель Zabbix, и рассказал о том, что ждет пользователей в Zabbix 8.0.
Полную запись с таймкодами можно найти на ютуб-канале Gals Software. Буду вам благодарен за подписки на канал и лайки этому видео.
P.S. Ссылки на слайды презентаций с этого митапа есть под видео.
3 декабря мы провели совместно с Zabbix уже наш второй онлайн-митап. На митапе выступил Алексей Владышев, CEO и основатель Zabbix, и рассказал о том, что ждет пользователей в Zabbix 8.0.
Полную запись с таймкодами можно найти на ютуб-канале Gals Software. Буду вам благодарен за подписки на канал и лайки этому видео.
P.S. Ссылки на слайды презентаций с этого митапа есть под видео.
🔥10👍7
What's new in the Grafana Image Renderer: higher-quality results, security enhancements, and more
В этой статье из блога Grafana об улучшениях Image Renderer
@monitorim_it
Grafana Image Renderer, являясь серверной частью для Grafana OSS, Grafana Enterprise и Grafana Cloud, позволяет использовать Grafana для различных сценариев, связанных с генерацией и обменом изображениями из Grafana. К ним относятся:
🚀 Экспорт дашбордов в форматы PDF и PNG.
🚀 Включение изображений в уведомления об оповещениях
🚀 Обмен отрендеренными изображениями по прямым ссылкам.
🚀 Создание изображений для экспорта в PDF и запланированных отчетов (доступно в Grafana Cloud и Grafana Enterprise)
Долгое время можно было выбрать между установкой Image Renderer в качестве плагина для Grafana или развертыванием его как сервиса. Плагин был объявлен устаревшим в сентябре 2025 года, и теперь Image Renderer существует только как сервис, который можно развернуть отдельно вместе с Grafana; он не входит в стандартную комплектацию Grafana.
В этой статье из блога Grafana об улучшениях Image Renderer
@monitorim_it
🔥6👍3
VictoriaLogs single server k8s setup gotchas
Полезные советы по деплою VictoriaLogs для приема логов от k8s.
Детальное описание пунктов выше читайте в статье.
@monitorim_it
Полезные советы по деплою VictoriaLogs для приема логов от k8s.
Краткие рекомендации о деплое Helm-чарта VictoriaLogs для одного сервера в боевой среде:
🚀 Для сервера VictoriaLogs используйте выделенный узел (предпочтительно NVMe), чтобы избежать влияния соседних приложений.
🚀 Настройте параметры хранения и сохранения данных в соответствии с объемом ваших логов; VictoriaLogs хорошо сжимает данные, но хранение все равно требует затрат.
🚀 Если вы используете Vector в качестве сборщика логов, ограничьте обогащение метаданных, чтобы уменьшить количество записей и потребление ресурсов.
🚀 Включите дашборды и собирайте метрики Vector с помощью VMPodScrape для обеспечения оперативной прозрачности.
🚀 Запустите выделенный экземпляр VMAlert для VictoriaLogs и настройте правила с селекторами.
🚀 Следуйте рекомендациям LogsQL (уменьшите количество меток, избегайте ресурсоемких регулярных выражений, ограничьте временные диапазоны).
Детальное описание пунктов выше читайте в статье.
@monitorim_it
👍5🔥5
hl
Высокопроизводительная утилита для просмотра и обработки логов, преобразующая логи в форматах JSON и logfmt в удобочитаемый вывод. Она обеспечивает быструю обработку и анализ больших файлов логов с минимальными накладными расходами.
Репыч на Гитхаб
@monitorim_it
Высокопроизводительная утилита для просмотра и обработки логов, преобразующая логи в форматах JSON и logfmt в удобочитаемый вывод. Она обеспечивает быструю обработку и анализ больших файлов логов с минимальными накладными расходами.
Репыч на Гитхаб
@monitorim_it
🔥10👍6
openobserve
А сколько жметот груди ваша Observability-платформа? OpenObserve делает это в 140 раз лучше, чем ElasticSearch. А еще они пишут, что ваш CFO позже признается вам в любви❤️
OpenObserve простой (запускается из одного бинарника) и уже имеет UI на борту. Данные хранятся в формате parquet (это бинарный, неизменяемый, колоночно-ориентированный формат хранения данных).
Система выглядит интересно и заслуживает внимания. Пока что не совсем понятно на сколько она production-ready, но customer stories на сайте у них есть.
Репыч на Гитхаб
Описание архитектуры решения
❓ Если кто-то разворачивал, напишите в комментариях о ваших впечатлениях.
UPD: в комментарии пришел реальный пользователь. Интересный опыт.
А сколько жмет
OpenObserve простой (запускается из одного бинарника) и уже имеет UI на борту. Данные хранятся в формате parquet (это бинарный, неизменяемый, колоночно-ориентированный формат хранения данных).
Система выглядит интересно и заслуживает внимания. Пока что не совсем понятно на сколько она production-ready, но customer stories на сайте у них есть.
Репыч на Гитхаб
Описание архитектуры решения
❓ Если кто-то разворачивал, напишите в комментариях о ваших впечатлениях.
UPD: в комментарии пришел реальный пользователь. Интересный опыт.
👍9❤6🔥5
Веб-мониторинг МФУ и уровня тонера через SNMP на Python + Flask
Когда одного Zabbix мало.
Читать дальше на Хабре
@monitorim_it
Когда одного Zabbix мало.
В этой статье я расскажу, как с помощью Python, Flask и SNMP создать простой веб-мониторинг для МФУ в корпоративной сети. Решение позволяет видеть статус, уровень тонера, тип картриджа и серийный номер принтера прямо в браузере.
Для реализации на МФУ должен быть включен SNMP v1/v2c. Порт 161/UDP должен быть открыт.
Читать дальше на Хабре
@monitorim_it
🔥9👍5🤔3
Минимальный набор практик для микросервиса
Если вы Go-разработчик и к вам пришли и сказали "мне нужны твои метрики, трейсы и логи", прочитайте эту статью. Здесь собраны рекомендации, например, о том, что нужно разделять логи на технический поток и поток аудита. А еще:
И еще:
И еще:
Ну, в общем теперь вы знаете, что сказать вашим разрабам, если они хотят нормальный мониторинг. В статье есть и другие советы.
@monitorim_it
Если вы Go-разработчик и к вам пришли и сказали "мне нужны твои метрики, трейсы и логи", прочитайте эту статью. Здесь собраны рекомендации, например, о том, что нужно разделять логи на технический поток и поток аудита. А еще:
Почему я так упираюсь в связку “трейсы + логи”? Потому что это реально магия. Ты открываешь проблемный трейс, видишь trace_id, и дальше хочешь в один клик найти все логи по этому запросу. Чтобы это работало, логгер должен вытаскивать trace_id и span_id из контекста.
И еще:
Идея простая: у каждого запроса есть trace_id, и по нему ты видишь весь путь запроса через сервисы, очереди, базы и внешние интеграции. Внутри trace есть span — атомарные операции. Хорошая новость в том, что большая часть спанов создаётся автоматически, если ты используешь нормальные инструменты (HTTP middleware, SQL драйверы с OTel-инструментацией, клиенты Kafka/Redis и т.д.). Плохая новость в том, что бизнес-логика “между ними” сама себя не оттрассирует, и иногда надо уметь добавить span руками.
И еще:
Я люблю метрики, которые привязаны к смыслу. Если это сервис постов, то тебе важно понимать, сколько постов создают, как часто добавляют картинки или видео, как меняется поведение пользователей. Это не «хочу поиграться в аналитика», это реально помогает принимать решения и продукту, и инженерам.
Плюс есть технические метрики, которые не про сервис в целом, а про конкретную бизнес-механику: сколько сообщений улетело в DLQ, сколько промахов у кэша, как часто включается fallback. Такие числа позволяют развивать сервис на цифрах, а не на ощущениях.
Ну, в общем теперь вы знаете, что сказать вашим разрабам, если они хотят нормальный мониторинг. В статье есть и другие советы.
@monitorim_it
🔥11👍6
Forwarded from Zabbix Recipes
Поддержка Zabbix Connector в VictoriaMetrics
Невероятно, но факт — в VM появилась поддержка стриминга данных из Zabbix. Принимаются только данные типов numeric (unsigned) и numeric (float). Метки и группы можно передавать в виде лейблов.
В практическом плане это означает, что вы теперь можете не отягощать БД Zabbix запросами, например, из Grafana, а строить визуализации напрямую из VM со всеми вытекающими преимуществами. Нет, мы не спорим, что раньше можно было перекладывать данные через Kafka, но напрямую же проще это делать.
См. как это работает в документации
@zabbix_ru
Невероятно, но факт — в VM появилась поддержка стриминга данных из Zabbix. Принимаются только данные типов numeric (unsigned) и numeric (float). Метки и группы можно передавать в виде лейблов.
В практическом плане это означает, что вы теперь можете не отягощать БД Zabbix запросами, например, из Grafana, а строить визуализации напрямую из VM со всеми вытекающими преимуществами. Нет, мы не спорим, что раньше можно было перекладывать данные через Kafka, но напрямую же проще это делать.
См. как это работает в документации
@zabbix_ru
1🔥14👍5❤3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Using Event Patterns in ClickStack to accelerate observability analysis
Это статья из блога ClickHouse. В ней упоминается интересное выражение "логи от недисциплинированных команд". Я такое выражение вижу впервые, но согласен, что такая ситуация имеет место быть. Некоторое время назад у меня даже был соответствующий опыт улучшайзинга логов. Такие логи обычно содержат много избыточной информации, что приводит к сложностям при дальнейшем анализе. Да и хранилище обычно не резиновое.
🔎 Как все работает под капотом (если лень читать статью)
Возможность автоматической кластеризации событий реализована при помощи Drain3, производительной библиотеки с открытым исходным кодом для анализа шаблонов логов. Drain3 — это алгоритм онлайн-кластеризации логов, который извлекает шаблоны из потоков сообщений логов. Он использует дерево разбора фиксированной глубины для управления формированием групп логов, избегая глубоких и несбалансированных структур, которые могут замедлять работу других алгоритмов или потреблять много памяти. Такой подход делает его быстрым для интерактивной работы даже с большими наборами данных логов. Drain3 применяется во время выполнения запроса, а не во время вставки.
Drain3 написан на Python, поэтому для его непосредственного выполнения в браузере используется Pyodide. Pyodide — это среда выполнения Python, скомпилированная в WebAssembly, которая работает исключительно на стороне клиента, без необходимости обработки на бэкэнде.
Кстати, этот Drain3 можно вызывать напрямую в качестве определяемой пользователем функции (UDF) в ClickHouse, что позволяет прямо там анализировать большие наборы данных. Шаблоны событий можно использовать для идентификации общих структур в конкретных источниках логов, например, принадлежащих одному сервису или компоненту. Затем эти обученные шаблоны можно скомпилировать в правила извлечения на основе регулярных выражений, что позволит ClickHouse автоматически захватывать структурированные поля во время приема данных.
@monitorim_it
Анализ логов в больших масштабах — одна из самых сложных задач в области мониторинга. Современные системы генерируют огромные объемы неструктурированных данных — они часто повторяются, содержат много шума и не имеют контекста, необходимого инженерам для принятия решений. В результате получается океан строк логов, где сигнал скрыт в шуме, а поиск смысла становится медленным и дорогостоящим процессом.
Шаблоны событий помогают справиться с этим шумом, предоставляя способ осмыслить уже имеющуюся информацию и выявить ключевые события.
В этой статье мы рассмотрим, почему анализ логов по своей природе сложен, что решают шаблоны событий, как ClickStack их реализует и почему мы решили делать это на этапе запроса. Мы также поделимся практическими рекомендациями о том, как максимально эффективно использовать шаблоны событий сегодня, и рассмотрим, как эта технология может еще больше улучшить сжатие и производительность в будущем.
Это статья из блога ClickHouse. В ней упоминается интересное выражение "логи от недисциплинированных команд". Я такое выражение вижу впервые, но согласен, что такая ситуация имеет место быть. Некоторое время назад у меня даже был соответствующий опыт улучшайзинга логов. Такие логи обычно содержат много избыточной информации, что приводит к сложностям при дальнейшем анализе. Да и хранилище обычно не резиновое.
🔎 Как все работает под капотом (если лень читать статью)
Возможность автоматической кластеризации событий реализована при помощи Drain3, производительной библиотеки с открытым исходным кодом для анализа шаблонов логов. Drain3 — это алгоритм онлайн-кластеризации логов, который извлекает шаблоны из потоков сообщений логов. Он использует дерево разбора фиксированной глубины для управления формированием групп логов, избегая глубоких и несбалансированных структур, которые могут замедлять работу других алгоритмов или потреблять много памяти. Такой подход делает его быстрым для интерактивной работы даже с большими наборами данных логов. Drain3 применяется во время выполнения запроса, а не во время вставки.
Drain3 написан на Python, поэтому для его непосредственного выполнения в браузере используется Pyodide. Pyodide — это среда выполнения Python, скомпилированная в WebAssembly, которая работает исключительно на стороне клиента, без необходимости обработки на бэкэнде.
Кстати, этот Drain3 можно вызывать напрямую в качестве определяемой пользователем функции (UDF) в ClickHouse, что позволяет прямо там анализировать большие наборы данных. Шаблоны событий можно использовать для идентификации общих структур в конкретных источниках логов, например, принадлежащих одному сервису или компоненту. Затем эти обученные шаблоны можно скомпилировать в правила извлечения на основе регулярных выражений, что позволит ClickHouse автоматически захватывать структурированные поля во время приема данных.
@monitorim_it
🔥8👍3
Forwarded from Elastic Stack recipes
Вышел OpenSearch 3.4
Не успели мы опомниться от 3.3 как уже выходит новая версия.
🚀 Новый пользовательский интерфейс для агентного поиска.
🚀 Множество новых инструментов для повышения релевантности результатов поиска.
🚀 Расширенный набор команд языка конвейерной обработки (PPL) для аналитических задач и задач мониторинга.
🚀 Значительное повышение производительности для задач агрегирования.
Подробности в блоге OpenSearch
@elasticsearch_ru
Не успели мы опомниться от 3.3 как уже выходит новая версия.
🚀 Новый пользовательский интерфейс для агентного поиска.
🚀 Множество новых инструментов для повышения релевантности результатов поиска.
🚀 Расширенный набор команд языка конвейерной обработки (PPL) для аналитических задач и задач мониторинга.
🚀 Значительное повышение производительности для задач агрегирования.
Подробности в блоге OpenSearch
@elasticsearch_ru
🔥6❤1👍1
Миграция базы данных Grafana: от внутреннего хранилища к PostgreSQL
Если вдруг ваша Grafana перестала справляться, прочитайте эту статью. Нет так давно этот туториал очень помог.
@monitorim_it
Если вдруг ваша Grafana перестала справляться, прочитайте эту статью. Нет так давно этот туториал очень помог.
@monitorim_it
🔥14👍2
Один сервис — четыре стека: практический бенчмарк с SLO по p99 и Docker/JMeter
Читать дальше на Хабре.
В этой статье представлено сравнение четырёх реализаций одного и того же сервиса поверх PostgreSQL:
Spring MVC + JDBC
Spring WebFlux + R2DBC
Ktor + JDBC
Go + pgx
Все сервисы крутятся в Docker с одинаковыми ресурсными лимитами и прогоняются через один и тот же JMeter-план. Для каждого стека определяется максимальный RPS при соблюдении SLO по p99-латентности.
Читать дальше на Хабре.
🔥8👍1
10 дашбордов Grafana, которые позволяют выявлять инциденты на ранней стадии
В статье собраны 10 примеров того, что вы можете отобразить в Grafana для быстрой локализации проблемы.
@monitorim_it
Давайте будем реалистами: тысяча графиков не спасет вас в 2 часа ночи. Спасут вас десять правильных графиков, основанных на фундаментальных принципах и настроенные на сигнал, а не на шум. Ниже приведены дашборды, которые я снова и снова видел превращающими «загадочные падения» в «незначительные сбои». Каждый из них объясняет, как он работает, и содержит фрагмент кода, который вы можете адаптировать под себя.
В статье собраны 10 примеров того, что вы можете отобразить в Grafana для быстрой локализации проблемы.
@monitorim_it
Teletype
10 дашбордов Grafana, которые позволяют выявлять инциденты на ранней стадии
Это перевод оригинальной статьи 10 Grafana Dashboards That Catch Incidents Early.
🔥17👍5🤔2
Introducing Observable Load Testing = Locust + OpenTelemetry!
Статья с описанием подхода (на портале medium.com)
Locust — это инструмент с открытым исходным кодом для тестирования производительности и нагрузки HTTP и других протоколов. Его удобный для разработчиков подход позволяет определять тесты в обычном коде Python.
Тесты Locust можно запускать из командной строки или с помощью веб-интерфейса. Пропускную способность, время отклика и ошибки можно просматривать в режиме реального времени и/или экспортировать для последующего анализа.
Вы можете импортировать обычные библиотеки Python в свои тесты, а благодаря подключаемой архитектуре Locust, возможности расширения практически безграничны. В отличие от большинства других инструментов, дизайн ваших тестов никогда не будет ограничен графическим интерфейсом или предметно-ориентированным языком программирования.
Репыч на Гитхаб
Проблема: Традиционное нагрузочное тестирование включает в себя обширную ручную корреляцию данных с бэкэндом и часто заходит в тупик из-за «слепых зон» в коде приложения и распределенных системах.
Решение: Благодаря автоматической инструментации скриптов Locust с помощью OpenTelemetry, нагрузочные тесты теперь будут генерировать сигналы OpenTelemetry. Эта телеметрия нагрузочных тестов передается в платформу мониторинга на основе OTel в режиме реального времени, позволяя визуализировать каждый запрос нагрузочного тестирования и отслеживать всю его транзакцию. Теперь у вас есть полная сквозная видимость — ваши запросы нагрузочного тестирования коррелированы с вашим приложением, инструментированным OTel.
Статья с описанием подхода (на портале medium.com)
Locust — это инструмент с открытым исходным кодом для тестирования производительности и нагрузки HTTP и других протоколов. Его удобный для разработчиков подход позволяет определять тесты в обычном коде Python.
Тесты Locust можно запускать из командной строки или с помощью веб-интерфейса. Пропускную способность, время отклика и ошибки можно просматривать в режиме реального времени и/или экспортировать для последующего анализа.
Вы можете импортировать обычные библиотеки Python в свои тесты, а благодаря подключаемой архитектуре Locust, возможности расширения практически безграничны. В отличие от большинства других инструментов, дизайн ваших тестов никогда не будет ограничен графическим интерфейсом или предметно-ориентированным языком программирования.
Репыч на Гитхаб
🔥5👍3❤2
Finding “Dead” Metrics and Silent Alerts in Your Monitoring
На этой записи Роман Хавроненко, сооснователь VictoriaMetrica, рассказывает как выявлять и устранять «фантомные» метрики и «скрытые» оповещения с помощью экосистемы VictoriaMetrics. Это если вы еще не знаете, что такое Cardinality Explorer.
На этой записи Роман Хавроненко, сооснователь VictoriaMetrica, рассказывает как выявлять и устранять «фантомные» метрики и «скрытые» оповещения с помощью экосистемы VictoriaMetrics. Это если вы еще не знаете, что такое Cardinality Explorer.
🔥9👍5❤2
r9y.dev
По ссылке выше вы найдете ответ как прокачать практику SRE в вашей организации и пройти путь от 90.0% к 99.999%. Каждый топик на этой карте сопровожден ссылкой с описанием практики, преимуществами её внедрения и ссылками на релевантные материалы.
Нельзя назвать эту карту таблицей зрелости, это скорее ориентир-путеводитель. Я бы смотрел на эту карту с точки зрения ваших текущих задач и потребностей. Если вы понимаете, что работает не так или часто тушите пожары, то смотрите в нужное место на карте и смотрите как такие задачи закрываются. Весьма удобная штука.
@monitorim_it
По ссылке выше вы найдете ответ как прокачать практику SRE в вашей организации и пройти путь от 90.0% к 99.999%. Каждый топик на этой карте сопровожден ссылкой с описанием практики, преимуществами её внедрения и ссылками на релевантные материалы.
Нельзя назвать эту карту таблицей зрелости, это скорее ориентир-путеводитель. Я бы смотрел на эту карту с точки зрения ваших текущих задач и потребностей. Если вы понимаете, что работает не так или часто тушите пожары, то смотрите в нужное место на карте и смотрите как такие задачи закрываются. Весьма удобная штука.
@monitorim_it
🔥13👍4
Why OpenTelemetry instrumentation needs both eBPF and SDKs
В одном из прошлых постов на канале вы могли прочитать:
На днях в блоге Grafana вышла статья про коллаборацию SDK и eBPF в рамках инструментирования при помощи OpenTelemetry — гибридный подход, при котором вы одновременно инструментируете бэкэнд-сервисы с помощью eBPF и SDK. Инструментарий eBPF анализирует приложения извне, на сетевом уровне, а инструментарий SDK анализирует внутреннее поведение.
SDK не предоставляют метрики графа сервисов по умолчанию. В качестве обходного пути можно генерировать метрики графа сервисов из трассировок, предоставляемых распределенной трассировкой. Метрики графа сервисов могут быть сгенерированы либо OpenTelemetry Collector с помощью коннектора графа сервисов , либо на стороне бэкэнда хранилища .
Генерация метрик графа сервисов из трассировок может привести к дополнительным накладным расходам как для отслеживаемых бэкэнд-сервисов, так и для конвейера генерации метрик. При использовании OBI генерация метрик графа сервисов из данных трассировки не требуется, т.к. этот инструмент предоставляет метрики графа сервисов «из коробки». Это позволит в итоге не собирать метрики из трейсов.
@monitorim_it
В одном из прошлых постов на канале вы могли прочитать:
Результатом коллаборации Grafana Labs, Splunk, Coralogix, Odigos и многих других членов сообщества стало решение OpenTelemetry eBPF Instrumentation (OBI). Этот продукт основан на Grafana Beyla, которая была пожертвована Grafana Labs в начале этого года. Разработка инструментария eBPF значительно ускорилась после того, как проект перешёл под управление OpenTelemetry. Было добавлено множество новых протоколов, качество повысилось, особенно при масштабном деплое, а тестирование выполняется в 10 раз быстрее.
На днях в блоге Grafana вышла статья про коллаборацию SDK и eBPF в рамках инструментирования при помощи OpenTelemetry — гибридный подход, при котором вы одновременно инструментируете бэкэнд-сервисы с помощью eBPF и SDK. Инструментарий eBPF анализирует приложения извне, на сетевом уровне, а инструментарий SDK анализирует внутреннее поведение.
SDK не предоставляют метрики графа сервисов по умолчанию. В качестве обходного пути можно генерировать метрики графа сервисов из трассировок, предоставляемых распределенной трассировкой. Метрики графа сервисов могут быть сгенерированы либо OpenTelemetry Collector с помощью коннектора графа сервисов , либо на стороне бэкэнда хранилища .
Генерация метрик графа сервисов из трассировок может привести к дополнительным накладным расходам как для отслеживаемых бэкэнд-сервисов, так и для конвейера генерации метрик. При использовании OBI генерация метрик графа сервисов из данных трассировки не требуется, т.к. этот инструмент предоставляет метрики графа сервисов «из коробки». Это позволит в итоге не собирать метрики из трейсов.
@monitorim_it
🔥8❤4👍3
Иногда кажется, что свободного времени просто нет: одни встречи, задачи и бесконечные «срочно».
Но свободный слот всё-таки существует. Главное — провести его с пользой 🚀
«Свободный слот» — подкаст команды AvitoTech для IT-специалистов, которые уже работают в роли лидов или присматриваются к управленческому треку.
В выпусках обсуждают то, с чем каждый день сталкиваются техлиды, тимлиды и менеджеры в технологических компаниях:
➡️ как принимать решения в условиях неопределённости;
➡️ что делать, когда задач больше, чем ресурсов;
➡️ как расти в роли и не терять интерес к профессии;
➡️ как справляться с ответственностью, которая растёт вместе с ролью.
Подкаст выходит регулярно, а в телеграм-канале — анонсы выпусков, дополнительные мысли и продолжение разговоров, на которые обычно не хватает времени в рабочем графике.
Если вы работаете в IT, управляете процессами и людьми (или только примеряете эту роль) — возможно, вам сюда.
🎤 «Свободный слот» от AvitoTech
Но свободный слот всё-таки существует. Главное — провести его с пользой 🚀
«Свободный слот» — подкаст команды AvitoTech для IT-специалистов, которые уже работают в роли лидов или присматриваются к управленческому треку.
В выпусках обсуждают то, с чем каждый день сталкиваются техлиды, тимлиды и менеджеры в технологических компаниях:
➡️ как принимать решения в условиях неопределённости;
➡️ что делать, когда задач больше, чем ресурсов;
➡️ как расти в роли и не терять интерес к профессии;
➡️ как справляться с ответственностью, которая растёт вместе с ролью.
Подкаст выходит регулярно, а в телеграм-канале — анонсы выпусков, дополнительные мысли и продолжение разговоров, на которые обычно не хватает времени в рабочем графике.
Если вы работаете в IT, управляете процессами и людьми (или только примеряете эту роль) — возможно, вам сюда.
🎤 «Свободный слот» от AvitoTech
🔥5👍1