Dev-Ops.su

Экспортер событий kubernetes в prometheus метрики. Теперь вы не пропустите OOMKilled и будете в курсе всех скейлов в кластере.

https://github.com/caicloud/event_exporter

#k8s #kubernetes #prometheus #observability

GitHub

GitHub - caicloud/event_exporter: Exporter for kubernetes events

Exporter for kubernetes events. Contribute to caicloud/event_exporter development by creating an account on GitHub.

44 viewsedited 06:02

Dev-Ops.su

Sloth - генератор SLO для Prometheus.
Поддерживает OpenSLO, и генерирует дашборды для Grafana, имеет и расширяется SLI плагинами, есть CLI.

Выглядит очень годно, буду тестить.

#prometheus #slo #sli

https://github.com/slok/sloth

GitHub

GitHub - slok/sloth: 🦥 Easy and simple Prometheus SLO (service level objectives) generator

🦥 Easy and simple Prometheus SLO (service level objectives) generator - slok/sloth

67 viewsedited 17:12

Dev-Ops.su

SLO-Tracker - простой, но эффективный способ отслеживать SLO и ошибки. Имеет наглядный дашборд, может быть интегрирован с несколькими инструментами оповещения через интеграцию с веб-хуком для получения сообщений об инцидентах SLO.

Поддерживает интеграцию с:
Prometheus
Datadog
Newrelic
Pingdom
Grafana
SLO-Tracker API

#slo #sla #sre #prometheus

https://github.com/roshan8/slo-tracker

76 views14:37

Dev-Ops.su

Kafka Lag Exporter - экспортер метрик лага Kafka consumer group.
Akka подобное приложение написанное на Scala. Метрики доступны для Prometheus, InfluxDB и Graphite. Имеется интеграцию с Strimzi оператором.

Одной из наиболее уникальных функций Kafka Lag Exporter является его способность предугадывать продолжительность времени, в течение которого consumer group отстает от последнего созданного значения для определенного partition.
Lag offset полезен, чтобы понять, что consumer group лагает, но он не дает представления о фактической задержке приложения-потребителя.

#kafka #strimzi #exporter #prometheus #influx #graphite

https://github.com/lightbend/kafka-lag-exporter

86 views20:07

Dev-Ops.su

prom-label-proxy - прокси сервер для Prometheus позволяющий разделять Prometheus и Alertmanager по меткам для каждого тенанта, что позволит создать мультиарендный доступ к одному Prometheus.

#prometheus #alertmanager #multitenancy

https://github.com/prometheus-community/prom-label-proxy

GitHub

GitHub - prometheus-community/prom-label-proxy: A proxy that enforces a given label in a given PromQL query.

A proxy that enforces a given label in a given PromQL query. - prometheus-community/prom-label-proxy

103 views04:43

Dev-Ops.su

Если вам недостаточно метрик TCP из BlackBox exporter, нужна утилита для профилирования TCP или нужен TCP хелзчекер? Посмотрите на TCPProbe.

TCPProbe - это современный инструмент и сервис TCP для наблюдения за производительностью сети. Он предоставляет информацию о базовом TCP-сеансе сокета, TLS и HTTP (более 60 метрик json и prometheus). А еще в нем есть gRPC.

#tcpprobe #tcp #prometheus #liveness

https://github.com/mehrdadrad/tcpprobe

148 views22:22

Dev-Ops.su

Как то пропустил из виду еще одно решение для долгосрочного хранения метрик Prometheus. В копилку к таким решениям как Cortex, Thanos и VictoriaMetrics добавлю M3 от парней из Uber.

M3 (m3db) - выбор для компаний Cloud Native, желающих расширить свои системы мониторинга на основе Prometheus. M3 может использоваться как удаленное хранилище Prometheus и имеет 100% совместимость с PromQL. Платформа M3 предназначена для создания масштабируемого и настраиваемого многопользовательского хранилища под ключ для Prometheus, Graphite и других стандартных схем метрик. Умеет принимать в себя метрики из InfluxDB.

Изначально M3 был разработан в Uber для обеспечения прозрачности бизнес-операций, микросервисов и инфраструктуры Uber. Благодаря способности легко масштабироваться по горизонтали, M3 предоставляет единое централизованное решение для хранения данных для всех случаев использования мониторинга.

Также имеется Kubernetes Operator

#m3 #m3db #prometheus #cortex #thanos #victoriametrics

https://github.com/m3db/m3

118 views08:00

Dev-Ops.su

Тут timescale оказывается свой инструмент для установки набора observability развивает.

Tobs - CLI утилита (инсталятор Helm чартов), цель которой — максимально упростить установку полного стека наблюдаемости (Observability Stack) в кластер Kubernetes. Установит в кластер и настроит:

- Prometheus
- AlertManager
- Grafana
- Node-Exporter
- Kube-State-Metrics
- Prometheus-Operator
- Promscale
- TimescaleDB
- Promlens
- Opentelemetry-Operator
- Jaeger Query

Но стоит ли использовать TimeScale (PromScale) для долгосрочного хранения метрик, это спорный вопрос. На всякий случай приложу пару статей с сравнением:
- VictoriaMetrics vs TimescaleDB vs InfluxDB
- Promscale vs VictoriaMetrics 😲

#k8s #kubernetes #prometheus #timescale #promscale #observability #jaeger #grafana #alertmanager

https://github.com/timescale/tobs

😱1

178 views10:44

Dev-Ops.su

prometheus_bot - бот для отправки событий Alertmanager в Telegram.

Со стороны Alertmanager настраиваем webhook_configs для отправки сообщений в бота, в боте настраиваем токен. На этом всё, никаких дополнительных команд бот не умеет. Но умеет использовать свой персональный gotmpl для сообщений, форматировать дату/время и единицы измерения.

#prometheus #alertmanager #telegram #bot

https://github.com/inCaller/prometheus_bot

GitHub

GitHub - inCaller/prometheus_bot: Telegram bot for prometheus alerting

Telegram bot for prometheus alerting. Contribute to inCaller/prometheus_bot development by creating an account on GitHub.

🔥2

141 views14:51

Dev-Ops.su

alertmanager-bot - бот для отправки событий Alertmanager в Telegram.

Этот бот умеет в разный набор комманд:
/start - Подписаться на оповещения.
/stop - Отписаться от уведомлений.
/status - Распечатать текущий статус.
/alerts - Список всех предупреждений.
/silences - Список всех отключенных уведомлений.
/chats - Список всех пользователей и групповых чатов, которые подписались.

Если сравнивать с prometheus_bot, здесь мы имеем необходимость в своей БД (bolt, etcd, consul), в отличии от prometheus_bot, где используется обычная веб-хук труба. Выбирайте, что вам подходит лучше, управляемый или простой бот.

#prometheus #alertmanager #telegram #bot

https://github.com/metalmatze/alertmanager-bot

GitHub

GitHub - metalmatze/alertmanager-bot: [deprecated] Bot for Prometheus' Alertmanager

[deprecated] Bot for Prometheus' Alertmanager. Contribute to metalmatze/alertmanager-bot development by creating an account on GitHub.

❤1👍1🔥1

164 views15:00

Dev-Ops.su

SLO exporter - это не просто экспортер Service Level Objectives, а скорее нормализатор и класификатор для метрик. Некая мидлварь, которая поможет сначала обработать весь ваш объем метрик Prometheus и уже передать в него самую мякотку.

Как это работает:
Каждое полученное событие имеет метаданные, которые используются для его классификации по определенному домену и классу SLO, как описано в главе рабочей книги SRE «Оповещения об SLO». Кроме того, имя приложения, в котором произошло событие, и идентификатор события также добавляются для облегчения отладки возможного нарушения SLO. Наконец, вы решаете на основе метаданных, было ли событие успешным или неудачным. Затем SLO-exporter предоставляет метрику Prometheus slo_domain_slo_class:slo_events_total{slo_domain="...", slo_class="...", result="..."}. Это дает вам количество успешных или неудачных событий, и это все, что вам нужно для расчета бюджета ошибок (error budget), скорости сгорания (burn rate) и т.п.

Также у ребят есть две занимательные статьи на эту тему:
▫️Implementing SRE workbook alerting with Prometheus only
▫️Advanced SLO infrastructure based on slo-exporter

Сам еще не пробовал, но выглядит интересно, думаю как нибудь взять в работу да познакомиться с этим поближе.

#SLO #SLI #prometheus

https://github.com/seznam/slo-exporter

GitHub

GitHub - seznam/slo-exporter: Slo-exporter computes standardized SLI and SLO metrics based on events coming from various data sources.

Slo-exporter computes standardized SLI and SLO metrics based on events coming from various data sources. - seznam/slo-exporter

123 views05:01

Dev-Ops.su

Kubenurse - это небольшой сервис, который отслеживает все сетевые подключения в кластере Kubernetes. Kubenurse измеряет продолжительность запросов, записывает ошибки и экспортирует эти показатели в формате Prometheus.

Все выполненные проверки предоставляют метрики, которые можно использовать для мониторинга/предупреждения:

▫️Задержки и ошибки сети SDN
▫️Задержки и ошибки сети kubelet-to-kubelet
▫️Связь pod-apiserver
▫️Задержки и ошибки приема-передачи
▫️Задержки и ошибки сервисов (kube-proxy)
▫️Основные проблемы kube-apiserver
▫️Ошибки CoreDNS
▫️Внешние ошибки разрешения DNS

#k8s #kubernetes #prometheus #network

https://github.com/postfinance/kubenurse

👍3

4.32K views05:00

About

Blog

Apps

Platform