SLO-Tracker - простой, но эффективный способ отслеживать SLO и ошибки. Имеет наглядный дашборд, может быть интегрирован с несколькими инструментами оповещения через интеграцию с веб-хуком для получения сообщений об инцидентах SLO.
Поддерживает интеграцию с:
Prometheus
Datadog
Newrelic
Pingdom
Grafana
SLO-Tracker API
#slo #sla #sre #prometheus
https://github.com/roshan8/slo-tracker
Поддерживает интеграцию с:
Prometheus
Datadog
Newrelic
Pingdom
Grafana
SLO-Tracker API
#slo #sla #sre #prometheus
https://github.com/roshan8/slo-tracker
Kafka Lag Exporter - экспортер метрик лага Kafka consumer group.
Akka подобное приложение написанное на Scala. Метрики доступны для Prometheus, InfluxDB и Graphite. Имеется интеграцию с Strimzi оператором.
Одной из наиболее уникальных функций Kafka Lag Exporter является его способность предугадывать продолжительность времени, в течение которого consumer group отстает от последнего созданного значения для определенного partition.
Lag offset полезен, чтобы понять, что consumer group лагает, но он не дает представления о фактической задержке приложения-потребителя.
#kafka #strimzi #exporter #prometheus #influx #graphite
https://github.com/lightbend/kafka-lag-exporter
Akka подобное приложение написанное на Scala. Метрики доступны для Prometheus, InfluxDB и Graphite. Имеется интеграцию с Strimzi оператором.
Одной из наиболее уникальных функций Kafka Lag Exporter является его способность предугадывать продолжительность времени, в течение которого consumer group отстает от последнего созданного значения для определенного partition.
Lag offset полезен, чтобы понять, что consumer group лагает, но он не дает представления о фактической задержке приложения-потребителя.
#kafka #strimzi #exporter #prometheus #influx #graphite
https://github.com/lightbend/kafka-lag-exporter
prom-label-proxy - прокси сервер для Prometheus позволяющий разделять Prometheus и Alertmanager по меткам для каждого тенанта, что позволит создать мультиарендный доступ к одному Prometheus.
#prometheus #alertmanager #multitenancy
https://github.com/prometheus-community/prom-label-proxy
#prometheus #alertmanager #multitenancy
https://github.com/prometheus-community/prom-label-proxy
GitHub
GitHub - prometheus-community/prom-label-proxy: A proxy that enforces a given label in a given PromQL query.
A proxy that enforces a given label in a given PromQL query. - prometheus-community/prom-label-proxy
Если вам недостаточно метрик TCP из BlackBox exporter, нужна утилита для профилирования TCP или нужен TCP хелзчекер? Посмотрите на TCPProbe.
TCPProbe - это современный инструмент и сервис TCP для наблюдения за производительностью сети. Он предоставляет информацию о базовом TCP-сеансе сокета, TLS и HTTP (более 60 метрик json и prometheus). А еще в нем есть gRPC.
#tcpprobe #tcp #prometheus #liveness
https://github.com/mehrdadrad/tcpprobe
TCPProbe - это современный инструмент и сервис TCP для наблюдения за производительностью сети. Он предоставляет информацию о базовом TCP-сеансе сокета, TLS и HTTP (более 60 метрик json и prometheus). А еще в нем есть gRPC.
#tcpprobe #tcp #prometheus #liveness
https://github.com/mehrdadrad/tcpprobe
Как то пропустил из виду еще одно решение для долгосрочного хранения метрик Prometheus. В копилку к таким решениям как Cortex, Thanos и VictoriaMetrics добавлю M3 от парней из Uber.
M3 (m3db) - выбор для компаний Cloud Native, желающих расширить свои системы мониторинга на основе Prometheus. M3 может использоваться как удаленное хранилище Prometheus и имеет 100% совместимость с PromQL. Платформа M3 предназначена для создания масштабируемого и настраиваемого многопользовательского хранилища под ключ для Prometheus, Graphite и других стандартных схем метрик. Умеет принимать в себя метрики из InfluxDB.
Изначально M3 был разработан в Uber для обеспечения прозрачности бизнес-операций, микросервисов и инфраструктуры Uber. Благодаря способности легко масштабироваться по горизонтали, M3 предоставляет единое централизованное решение для хранения данных для всех случаев использования мониторинга.
Также имеется Kubernetes Operator
#m3 #m3db #prometheus #cortex #thanos #victoriametrics
https://github.com/m3db/m3
M3 (m3db) - выбор для компаний Cloud Native, желающих расширить свои системы мониторинга на основе Prometheus. M3 может использоваться как удаленное хранилище Prometheus и имеет 100% совместимость с PromQL. Платформа M3 предназначена для создания масштабируемого и настраиваемого многопользовательского хранилища под ключ для Prometheus, Graphite и других стандартных схем метрик. Умеет принимать в себя метрики из InfluxDB.
Изначально M3 был разработан в Uber для обеспечения прозрачности бизнес-операций, микросервисов и инфраструктуры Uber. Благодаря способности легко масштабироваться по горизонтали, M3 предоставляет единое централизованное решение для хранения данных для всех случаев использования мониторинга.
Также имеется Kubernetes Operator
#m3 #m3db #prometheus #cortex #thanos #victoriametrics
https://github.com/m3db/m3
Тут timescale оказывается свой инструмент для установки набора observability развивает.
Tobs - CLI утилита (инсталятор Helm чартов), цель которой — максимально упростить установку полного стека наблюдаемости (Observability Stack) в кластер Kubernetes. Установит в кластер и настроит:
- Prometheus
- AlertManager
- Grafana
- Node-Exporter
- Kube-State-Metrics
- Prometheus-Operator
- Promscale
- TimescaleDB
- Promlens
- Opentelemetry-Operator
- Jaeger Query
Но стоит ли использовать TimeScale (PromScale) для долгосрочного хранения метрик, это спорный вопрос. На всякий случай приложу пару статей с сравнением:
- VictoriaMetrics vs TimescaleDB vs InfluxDB
- Promscale vs VictoriaMetrics 😲
#k8s #kubernetes #prometheus #timescale #promscale #observability #jaeger #grafana #alertmanager
https://github.com/timescale/tobs
Tobs - CLI утилита (инсталятор Helm чартов), цель которой — максимально упростить установку полного стека наблюдаемости (Observability Stack) в кластер Kubernetes. Установит в кластер и настроит:
- Prometheus
- AlertManager
- Grafana
- Node-Exporter
- Kube-State-Metrics
- Prometheus-Operator
- Promscale
- TimescaleDB
- Promlens
- Opentelemetry-Operator
- Jaeger Query
Но стоит ли использовать TimeScale (PromScale) для долгосрочного хранения метрик, это спорный вопрос. На всякий случай приложу пару статей с сравнением:
- VictoriaMetrics vs TimescaleDB vs InfluxDB
- Promscale vs VictoriaMetrics 😲
#k8s #kubernetes #prometheus #timescale #promscale #observability #jaeger #grafana #alertmanager
https://github.com/timescale/tobs
😱1
prometheus_bot - бот для отправки событий Alertmanager в Telegram.
Со стороны Alertmanager настраиваем
#prometheus #alertmanager #telegram #bot
https://github.com/inCaller/prometheus_bot
Со стороны Alertmanager настраиваем
webhook_configs для отправки сообщений в бота, в боте настраиваем токен. На этом всё, никаких дополнительных команд бот не умеет. Но умеет использовать свой персональный gotmpl для сообщений, форматировать дату/время и единицы измерения.#prometheus #alertmanager #telegram #bot
https://github.com/inCaller/prometheus_bot
GitHub
GitHub - inCaller/prometheus_bot: Telegram bot for prometheus alerting
Telegram bot for prometheus alerting. Contribute to inCaller/prometheus_bot development by creating an account on GitHub.
🔥2
alertmanager-bot - бот для отправки событий Alertmanager в Telegram.
Этот бот умеет в разный набор комманд:
Если сравнивать с prometheus_bot, здесь мы имеем необходимость в своей БД (bolt, etcd, consul), в отличии от prometheus_bot, где используется обычная веб-хук труба. Выбирайте, что вам подходит лучше, управляемый или простой бот.
#prometheus #alertmanager #telegram #bot
https://github.com/metalmatze/alertmanager-bot
Этот бот умеет в разный набор комманд:
/start - Подписаться на оповещения./stop - Отписаться от уведомлений./status - Распечатать текущий статус./alerts - Список всех предупреждений./silences - Список всех отключенных уведомлений./chats - Список всех пользователей и групповых чатов, которые подписались.Если сравнивать с prometheus_bot, здесь мы имеем необходимость в своей БД (bolt, etcd, consul), в отличии от prometheus_bot, где используется обычная веб-хук труба. Выбирайте, что вам подходит лучше, управляемый или простой бот.
#prometheus #alertmanager #telegram #bot
https://github.com/metalmatze/alertmanager-bot
GitHub
GitHub - metalmatze/alertmanager-bot: [deprecated] Bot for Prometheus' Alertmanager
[deprecated] Bot for Prometheus' Alertmanager. Contribute to metalmatze/alertmanager-bot development by creating an account on GitHub.
❤1👍1🔥1
SLO exporter - это не просто экспортер Service Level Objectives, а скорее нормализатор и класификатор для метрик. Некая мидлварь, которая поможет сначала обработать весь ваш объем метрик Prometheus и уже передать в него самую мякотку.
Как это работает:
Каждое полученное событие имеет метаданные, которые используются для его классификации по определенному домену и классу SLO, как описано в главе рабочей книги SRE «Оповещения об SLO». Кроме того, имя приложения, в котором произошло событие, и идентификатор события также добавляются для облегчения отладки возможного нарушения SLO. Наконец, вы решаете на основе метаданных, было ли событие успешным или неудачным. Затем SLO-exporter предоставляет метрику Prometheus
Также у ребят есть две занимательные статьи на эту тему:
▫️Implementing SRE workbook alerting with Prometheus only
▫️Advanced SLO infrastructure based on slo-exporter
Сам еще не пробовал, но выглядит интересно, думаю как нибудь взять в работу да познакомиться с этим поближе.
#SLO #SLI #prometheus
https://github.com/seznam/slo-exporter
Как это работает:
Каждое полученное событие имеет метаданные, которые используются для его классификации по определенному домену и классу SLO, как описано в главе рабочей книги SRE «Оповещения об SLO». Кроме того, имя приложения, в котором произошло событие, и идентификатор события также добавляются для облегчения отладки возможного нарушения SLO. Наконец, вы решаете на основе метаданных, было ли событие успешным или неудачным. Затем SLO-exporter предоставляет метрику Prometheus
slo_domain_slo_class:slo_events_total{slo_domain="...", slo_class="...", result="..."}. Это дает вам количество успешных или неудачных событий, и это все, что вам нужно для расчета бюджета ошибок (error budget), скорости сгорания (burn rate) и т.п.Также у ребят есть две занимательные статьи на эту тему:
▫️Implementing SRE workbook alerting with Prometheus only
▫️Advanced SLO infrastructure based on slo-exporter
Сам еще не пробовал, но выглядит интересно, думаю как нибудь взять в работу да познакомиться с этим поближе.
#SLO #SLI #prometheus
https://github.com/seznam/slo-exporter
GitHub
GitHub - seznam/slo-exporter: Slo-exporter computes standardized SLI and SLO metrics based on events coming from various data sources.
Slo-exporter computes standardized SLI and SLO metrics based on events coming from various data sources. - seznam/slo-exporter
Kubenurse - это небольшой сервис, который отслеживает все сетевые подключения в кластере Kubernetes. Kubenurse измеряет продолжительность запросов, записывает ошибки и экспортирует эти показатели в формате Prometheus.
Все выполненные проверки предоставляют метрики, которые можно использовать для мониторинга/предупреждения:
▫️Задержки и ошибки сети SDN
▫️Задержки и ошибки сети kubelet-to-kubelet
▫️Связь pod-apiserver
▫️Задержки и ошибки приема-передачи
▫️Задержки и ошибки сервисов (kube-proxy)
▫️Основные проблемы kube-apiserver
▫️Ошибки CoreDNS
▫️Внешние ошибки разрешения DNS
#k8s #kubernetes #prometheus #network
https://github.com/postfinance/kubenurse
Все выполненные проверки предоставляют метрики, которые можно использовать для мониторинга/предупреждения:
▫️Задержки и ошибки сети SDN
▫️Задержки и ошибки сети kubelet-to-kubelet
▫️Связь pod-apiserver
▫️Задержки и ошибки приема-передачи
▫️Задержки и ошибки сервисов (kube-proxy)
▫️Основные проблемы kube-apiserver
▫️Ошибки CoreDNS
▫️Внешние ошибки разрешения DNS
#k8s #kubernetes #prometheus #network
https://github.com/postfinance/kubenurse
👍3
Grafana Mimir — это открытое, горизонтально масштабируемое, высокодоступное, многопользовательское, долгосрочное хранилище для Prometheus.
Обеспечивает масштабирование до 1 миллиарда метрик и более благодаря высокой доступности, мультиарендности, надежному хранилищу и молниеносной производительности запросов в течение длительных периодов времени.
Mimir был запущен в Grafana Labs и анонсирован в 2022 году. Миссия проекта состоит в том, чтобы сделать его самой масштабируемой и самой производительной базой данных временных рядов. Парни из Grafana обещают производительность в 40 раз выше чем у Cortex.
▫️Миграция с Thanos/Prometheus
▫️Миграция c Cortex
#grafana #prometheus #mimir #cortex #thanos
https://github.com/grafana/mimir
https://grafana.com/oss/mimir/
Обеспечивает масштабирование до 1 миллиарда метрик и более благодаря высокой доступности, мультиарендности, надежному хранилищу и молниеносной производительности запросов в течение длительных периодов времени.
Mimir был запущен в Grafana Labs и анонсирован в 2022 году. Миссия проекта состоит в том, чтобы сделать его самой масштабируемой и самой производительной базой данных временных рядов. Парни из Grafana обещают производительность в 40 раз выше чем у Cortex.
▫️Миграция с Thanos/Prometheus
▫️Миграция c Cortex
#grafana #prometheus #mimir #cortex #thanos
https://github.com/grafana/mimir
https://grafana.com/oss/mimir/
GitHub
GitHub - grafana/mimir: Grafana Mimir provides horizontally scalable, highly available, multi-tenant, long-term storage for Prometheus.
Grafana Mimir provides horizontally scalable, highly available, multi-tenant, long-term storage for Prometheus. - grafana/mimir
👍3❤1🔥1
Relabeler — бесплатная онлайн-песочница для анализа правил перемаркировки (relabeling) Prometheus.
Делают ребята из PromLabs — это платформа онлайн-тренингов для изучения Prometheus и авторы PromLens (редактор запросов и визуализатор для PromQL)
Также у них имеется бесплатный курс обучения по relabeling
#prometheus #relabeling
https://relabeler.promlabs.com
Делают ребята из PromLabs — это платформа онлайн-тренингов для изучения Prometheus и авторы PromLens (редактор запросов и визуализатор для PromQL)
Также у них имеется бесплатный курс обучения по relabeling
#prometheus #relabeling
https://relabeler.promlabs.com
👍2🔥2
Cloudprober — это программное обеспечение для активного мониторинга и обнаружения сбоев. Некий аналог blackbox exporter.
▫️Использует активную модель мониторинга
▫️Имеет автодискавери c K8S
▫️Интеграции с Prometheus, DataDog, PostgreSQL, StackDriver, CloudWatch
▫️Быстрые встроенные проверки ICMP, HTTP, UDP и DNS
▫️Произвольные внешние пробы, можно писать свои скрипты
▫️Требует мало ресурсов
Подробнее в документации
#monitoring #prometheus #blackbox #k8s
https://github.com/cloudprober/cloudprober
https://cloudprober.org
▫️Использует активную модель мониторинга
▫️Имеет автодискавери c K8S
▫️Интеграции с Prometheus, DataDog, PostgreSQL, StackDriver, CloudWatch
▫️Быстрые встроенные проверки ICMP, HTTP, UDP и DNS
▫️Произвольные внешние пробы, можно писать свои скрипты
▫️Требует мало ресурсов
Подробнее в документации
#monitoring #prometheus #blackbox #k8s
https://github.com/cloudprober/cloudprober
https://cloudprober.org
GitHub
GitHub - cloudprober/cloudprober: An active monitoring software to detect failures before your customers do.
An active monitoring software to detect failures before your customers do. - cloudprober/cloudprober