Dev-Ops.su

SLO-Tracker - простой, но эффективный способ отслеживать SLO и ошибки. Имеет наглядный дашборд, может быть интегрирован с несколькими инструментами оповещения через интеграцию с веб-хуком для получения сообщений об инцидентах SLO.

Поддерживает интеграцию с:
Prometheus
Datadog
Newrelic
Pingdom
Grafana
SLO-Tracker API

#slo #sla #sre #prometheus

https://github.com/roshan8/slo-tracker

76 views14:37

Dev-Ops.su

Kafka Lag Exporter - экспортер метрик лага Kafka consumer group.
Akka подобное приложение написанное на Scala. Метрики доступны для Prometheus, InfluxDB и Graphite. Имеется интеграцию с Strimzi оператором.

Одной из наиболее уникальных функций Kafka Lag Exporter является его способность предугадывать продолжительность времени, в течение которого consumer group отстает от последнего созданного значения для определенного partition.
Lag offset полезен, чтобы понять, что consumer group лагает, но он не дает представления о фактической задержке приложения-потребителя.

#kafka #strimzi #exporter #prometheus #influx #graphite

https://github.com/lightbend/kafka-lag-exporter

86 views20:07

Dev-Ops.su

prom-label-proxy - прокси сервер для Prometheus позволяющий разделять Prometheus и Alertmanager по меткам для каждого тенанта, что позволит создать мультиарендный доступ к одному Prometheus.

#prometheus #alertmanager #multitenancy

https://github.com/prometheus-community/prom-label-proxy

GitHub

GitHub - prometheus-community/prom-label-proxy: A proxy that enforces a given label in a given PromQL query.

A proxy that enforces a given label in a given PromQL query. - prometheus-community/prom-label-proxy

103 views04:43

Dev-Ops.su

Если вам недостаточно метрик TCP из BlackBox exporter, нужна утилита для профилирования TCP или нужен TCP хелзчекер? Посмотрите на TCPProbe.

TCPProbe - это современный инструмент и сервис TCP для наблюдения за производительностью сети. Он предоставляет информацию о базовом TCP-сеансе сокета, TLS и HTTP (более 60 метрик json и prometheus). А еще в нем есть gRPC.

#tcpprobe #tcp #prometheus #liveness

https://github.com/mehrdadrad/tcpprobe

148 views22:22

Dev-Ops.su

Как то пропустил из виду еще одно решение для долгосрочного хранения метрик Prometheus. В копилку к таким решениям как Cortex, Thanos и VictoriaMetrics добавлю M3 от парней из Uber.

M3 (m3db) - выбор для компаний Cloud Native, желающих расширить свои системы мониторинга на основе Prometheus. M3 может использоваться как удаленное хранилище Prometheus и имеет 100% совместимость с PromQL. Платформа M3 предназначена для создания масштабируемого и настраиваемого многопользовательского хранилища под ключ для Prometheus, Graphite и других стандартных схем метрик. Умеет принимать в себя метрики из InfluxDB.

Изначально M3 был разработан в Uber для обеспечения прозрачности бизнес-операций, микросервисов и инфраструктуры Uber. Благодаря способности легко масштабироваться по горизонтали, M3 предоставляет единое централизованное решение для хранения данных для всех случаев использования мониторинга.

Также имеется Kubernetes Operator

#m3 #m3db #prometheus #cortex #thanos #victoriametrics

https://github.com/m3db/m3

118 views08:00

Dev-Ops.su

Тут timescale оказывается свой инструмент для установки набора observability развивает.

Tobs - CLI утилита (инсталятор Helm чартов), цель которой — максимально упростить установку полного стека наблюдаемости (Observability Stack) в кластер Kubernetes. Установит в кластер и настроит:

- Prometheus
- AlertManager
- Grafana
- Node-Exporter
- Kube-State-Metrics
- Prometheus-Operator
- Promscale
- TimescaleDB
- Promlens
- Opentelemetry-Operator
- Jaeger Query

Но стоит ли использовать TimeScale (PromScale) для долгосрочного хранения метрик, это спорный вопрос. На всякий случай приложу пару статей с сравнением:
- VictoriaMetrics vs TimescaleDB vs InfluxDB
- Promscale vs VictoriaMetrics 😲

#k8s #kubernetes #prometheus #timescale #promscale #observability #jaeger #grafana #alertmanager

https://github.com/timescale/tobs

😱1

178 views10:44

Dev-Ops.su

prometheus_bot - бот для отправки событий Alertmanager в Telegram.

Со стороны Alertmanager настраиваем webhook_configs для отправки сообщений в бота, в боте настраиваем токен. На этом всё, никаких дополнительных команд бот не умеет. Но умеет использовать свой персональный gotmpl для сообщений, форматировать дату/время и единицы измерения.

#prometheus #alertmanager #telegram #bot

https://github.com/inCaller/prometheus_bot

GitHub

GitHub - inCaller/prometheus_bot: Telegram bot for prometheus alerting

Telegram bot for prometheus alerting. Contribute to inCaller/prometheus_bot development by creating an account on GitHub.

🔥2

141 views14:51

Dev-Ops.su

alertmanager-bot - бот для отправки событий Alertmanager в Telegram.

Этот бот умеет в разный набор комманд:
/start - Подписаться на оповещения.
/stop - Отписаться от уведомлений.
/status - Распечатать текущий статус.
/alerts - Список всех предупреждений.
/silences - Список всех отключенных уведомлений.
/chats - Список всех пользователей и групповых чатов, которые подписались.

Если сравнивать с prometheus_bot, здесь мы имеем необходимость в своей БД (bolt, etcd, consul), в отличии от prometheus_bot, где используется обычная веб-хук труба. Выбирайте, что вам подходит лучше, управляемый или простой бот.

#prometheus #alertmanager #telegram #bot

https://github.com/metalmatze/alertmanager-bot

GitHub

GitHub - metalmatze/alertmanager-bot: [deprecated] Bot for Prometheus' Alertmanager

[deprecated] Bot for Prometheus' Alertmanager. Contribute to metalmatze/alertmanager-bot development by creating an account on GitHub.

❤1👍1🔥1

164 views15:00

Dev-Ops.su

SLO exporter - это не просто экспортер Service Level Objectives, а скорее нормализатор и класификатор для метрик. Некая мидлварь, которая поможет сначала обработать весь ваш объем метрик Prometheus и уже передать в него самую мякотку.

Как это работает:
Каждое полученное событие имеет метаданные, которые используются для его классификации по определенному домену и классу SLO, как описано в главе рабочей книги SRE «Оповещения об SLO». Кроме того, имя приложения, в котором произошло событие, и идентификатор события также добавляются для облегчения отладки возможного нарушения SLO. Наконец, вы решаете на основе метаданных, было ли событие успешным или неудачным. Затем SLO-exporter предоставляет метрику Prometheus slo_domain_slo_class:slo_events_total{slo_domain="...", slo_class="...", result="..."}. Это дает вам количество успешных или неудачных событий, и это все, что вам нужно для расчета бюджета ошибок (error budget), скорости сгорания (burn rate) и т.п.

Также у ребят есть две занимательные статьи на эту тему:
▫️Implementing SRE workbook alerting with Prometheus only
▫️Advanced SLO infrastructure based on slo-exporter

Сам еще не пробовал, но выглядит интересно, думаю как нибудь взять в работу да познакомиться с этим поближе.

#SLO #SLI #prometheus

https://github.com/seznam/slo-exporter

GitHub

GitHub - seznam/slo-exporter: Slo-exporter computes standardized SLI and SLO metrics based on events coming from various data sources.

Slo-exporter computes standardized SLI and SLO metrics based on events coming from various data sources. - seznam/slo-exporter

123 views05:01

Dev-Ops.su

Kubenurse - это небольшой сервис, который отслеживает все сетевые подключения в кластере Kubernetes. Kubenurse измеряет продолжительность запросов, записывает ошибки и экспортирует эти показатели в формате Prometheus.

Все выполненные проверки предоставляют метрики, которые можно использовать для мониторинга/предупреждения:

▫️Задержки и ошибки сети SDN
▫️Задержки и ошибки сети kubelet-to-kubelet
▫️Связь pod-apiserver
▫️Задержки и ошибки приема-передачи
▫️Задержки и ошибки сервисов (kube-proxy)
▫️Основные проблемы kube-apiserver
▫️Ошибки CoreDNS
▫️Внешние ошибки разрешения DNS

#k8s #kubernetes #prometheus #network

https://github.com/postfinance/kubenurse

👍3

4.32K views05:00

Dev-Ops.su

Grafana Mimir — это открытое, горизонтально масштабируемое, высокодоступное, многопользовательское, долгосрочное хранилище для Prometheus.

Обеспечивает масштабирование до 1 миллиарда метрик и более благодаря высокой доступности, мультиарендности, надежному хранилищу и молниеносной производительности запросов в течение длительных периодов времени.

Mimir был запущен в Grafana Labs и анонсирован в 2022 году. Миссия проекта состоит в том, чтобы сделать его самой масштабируемой и самой производительной базой данных временных рядов. Парни из Grafana обещают производительность в 40 раз выше чем у Cortex.

▫️Миграция с Thanos/Prometheus
▫️Миграция c Cortex

#grafana #prometheus #mimir #cortex #thanos

https://github.com/grafana/mimir
https://grafana.com/oss/mimir/

GitHub

GitHub - grafana/mimir: Grafana Mimir provides horizontally scalable, highly available, multi-tenant, long-term storage for Prometheus.

Grafana Mimir provides horizontally scalable, highly available, multi-tenant, long-term storage for Prometheus. - grafana/mimir

👍3❤1🔥1

316 views09:39

Dev-Ops.su

Pint - валидатор и линтер для конфигов prometheus

#prometheus

https://github.com/cloudflare/pint

GitHub

GitHub - cloudflare/pint: Prometheus rule linter/validator

Prometheus rule linter/validator. Contribute to cloudflare/pint development by creating an account on GitHub.

👍3❤1

315 views13:33

Dev-Ops.su

Relabeler — бесплатная онлайн-песочница для анализа правил перемаркировки (relabeling) Prometheus.

Делают ребята из PromLabs — это платформа онлайн-тренингов для изучения Prometheus и авторы PromLens (редактор запросов и визуализатор для PromQL)

Также у них имеется бесплатный курс обучения по relabeling

#prometheus #relabeling

https://relabeler.promlabs.com

👍2🔥2

314 views13:57

Dev-Ops.su

Cloudprober — это программное обеспечение для активного мониторинга и обнаружения сбоев. Некий аналог blackbox exporter.

▫️Использует активную модель мониторинга
▫️Имеет автодискавери c K8S
▫️Интеграции с Prometheus, DataDog, PostgreSQL, StackDriver, CloudWatch
▫️Быстрые встроенные проверки ICMP, HTTP, UDP и DNS
▫️Произвольные внешние пробы, можно писать свои скрипты
▫️Требует мало ресурсов

Подробнее в документации

#monitoring #prometheus #blackbox #k8s

https://github.com/cloudprober/cloudprober
https://cloudprober.org

GitHub

GitHub - cloudprober/cloudprober: An active monitoring software to detect failures before your customers do.

An active monitoring software to detect failures before your customers do. - cloudprober/cloudprober

324 views17:51

About

Blog

Apps

Platform