Dev-Ops.su
306 subscribers
79 photos
4 files
206 links
Полезные утилиты, статьи, доклады и обзоры.
Канал для DevOps, SRE, Архитекторов и прочих *Ops

https://dev-ops.su

#DevOps #SRE #DevSecOps #SecOps #ChatOps #GitOps #DocsOps #MLOps #FinOps #NoOps #CloudOps #CIOps #CDOps #AnyOps #BuzzWordOps

@woozymasta
Download Telegram
Экспортер событий kubernetes в prometheus метрики. Теперь вы не пропустите OOMKilled и будете в курсе всех скейлов в кластере.

https://github.com/caicloud/event_exporter

#k8s #kubernetes #prometheus #observability
Sloth - генератор SLO для Prometheus.
Поддерживает OpenSLO, и генерирует дашборды для Grafana, имеет и расширяется SLI плагинами, есть CLI.

Выглядит очень годно, буду тестить.

#prometheus #slo #sli

https://github.com/slok/sloth
SLO-Tracker - простой, но эффективный способ отслеживать SLO и ошибки. Имеет наглядный дашборд, может быть интегрирован с несколькими инструментами оповещения через интеграцию с веб-хуком для получения сообщений об инцидентах SLO.

Поддерживает интеграцию с:
Prometheus
Datadog
Newrelic
Pingdom
Grafana
SLO-Tracker API

#slo #sla #sre #prometheus

https://github.com/roshan8/slo-tracker
Kafka Lag Exporter - экспортер метрик лага Kafka consumer group.
Akka подобное приложение написанное на Scala. Метрики доступны для Prometheus, InfluxDB и Graphite. Имеется интеграцию с Strimzi оператором.

Одной из наиболее уникальных функций Kafka Lag Exporter является его способность предугадывать продолжительность времени, в течение которого consumer group отстает от последнего созданного значения для определенного partition.
Lag offset полезен, чтобы понять, что consumer group лагает, но он не дает представления о фактической задержке приложения-потребителя.

#kafka #strimzi #exporter #prometheus #influx #graphite

https://github.com/lightbend/kafka-lag-exporter
prom-label-proxy - прокси сервер для Prometheus позволяющий разделять Prometheus и Alertmanager по меткам для каждого тенанта, что позволит создать мультиарендный доступ к одному Prometheus.

#prometheus #alertmanager #multitenancy

https://github.com/prometheus-community/prom-label-proxy
Если вам недостаточно метрик TCP из BlackBox exporter, нужна утилита для профилирования TCP или нужен TCP хелзчекер? Посмотрите на TCPProbe.

TCPProbe
- это современный инструмент и сервис TCP для наблюдения за производительностью сети. Он предоставляет информацию о базовом TCP-сеансе сокета, TLS и HTTP (более 60 метрик json и prometheus). А еще в нем есть gRPC.

#tcpprobe #tcp #prometheus #liveness

https://github.com/mehrdadrad/tcpprobe
Как то пропустил из виду еще одно решение для долгосрочного хранения метрик Prometheus. В копилку к таким решениям как Cortex, Thanos и VictoriaMetrics добавлю M3 от парней из Uber.

M3 (m3db) - выбор для компаний Cloud Native, желающих расширить свои системы мониторинга на основе Prometheus. M3 может использоваться как удаленное хранилище Prometheus и имеет 100% совместимость с PromQL. Платформа M3 предназначена для создания масштабируемого и настраиваемого многопользовательского хранилища под ключ для Prometheus, Graphite и других стандартных схем метрик. Умеет принимать в себя метрики из InfluxDB.

Изначально M3 был разработан в Uber для обеспечения прозрачности бизнес-операций, микросервисов и инфраструктуры Uber. Благодаря способности легко масштабироваться по горизонтали, M3 предоставляет единое централизованное решение для хранения данных для всех случаев использования мониторинга.

Также имеется Kubernetes Operator

#m3 #m3db #prometheus #cortex #thanos #victoriametrics

https://github.com/m3db/m3
Тут timescale оказывается свой инструмент для установки набора observability развивает.

Tobs - CLI утилита (инсталятор Helm чартов), цель которой — максимально упростить установку полного стека наблюдаемости (Observability Stack) в кластер Kubernetes. Установит в кластер и настроит:

- Prometheus
- AlertManager
- Grafana
- Node-Exporter
- Kube-State-Metrics
- Prometheus-Operator
- Promscale
- TimescaleDB
- Promlens
- Opentelemetry-Operator
- Jaeger Query

Но стоит ли использовать TimeScale (PromScale) для долгосрочного хранения метрик, это спорный вопрос. На всякий случай приложу пару статей с сравнением:
- VictoriaMetrics vs TimescaleDB vs InfluxDB
- Promscale vs VictoriaMetrics 😲

#k8s #kubernetes #prometheus #timescale #promscale #observability #jaeger #grafana #alertmanager

https://github.com/timescale/tobs
😱1
prometheus_bot - бот для отправки событий Alertmanager в Telegram.

Со стороны Alertmanager настраиваем webhook_configs для отправки сообщений в бота, в боте настраиваем токен. На этом всё, никаких дополнительных команд бот не умеет. Но умеет использовать свой персональный gotmpl для сообщений, форматировать дату/время и единицы измерения.

#prometheus #alertmanager #telegram #bot

https://github.com/inCaller/prometheus_bot
🔥2
alertmanager-bot - бот для отправки событий Alertmanager в Telegram.

Этот бот умеет в разный набор комманд:
/start - Подписаться на оповещения.
/stop - Отписаться от уведомлений.
/status - Распечатать текущий статус.
/alerts - Список всех предупреждений.
/silences - Список всех отключенных уведомлений.
/chats - Список всех пользователей и групповых чатов, которые подписались.

Если сравнивать с prometheus_bot, здесь мы имеем необходимость в своей БД (bolt, etcd, consul), в отличии от prometheus_bot, где используется обычная веб-хук труба. Выбирайте, что вам подходит лучше, управляемый или простой бот.

#prometheus #alertmanager #telegram #bot

https://github.com/metalmatze/alertmanager-bot
1👍1🔥1
SLO exporter - это не просто экспортер Service Level Objectives, а скорее нормализатор и класификатор для метрик. Некая мидлварь, которая поможет сначала обработать весь ваш объем метрик Prometheus и уже передать в него самую мякотку.

Как это работает:
Каждое полученное событие имеет метаданные, которые используются для его классификации по определенному домену и классу SLO, как описано в главе рабочей книги SRE «Оповещения об SLO». Кроме того, имя приложения, в котором произошло событие, и идентификатор события также добавляются для облегчения отладки возможного нарушения SLO. Наконец, вы решаете на основе метаданных, было ли событие успешным или неудачным. Затем SLO-exporter предоставляет метрику Prometheus slo_domain_slo_class:slo_events_total{slo_domain="...", slo_class="...", result="..."}. Это дает вам количество успешных или неудачных событий, и это все, что вам нужно для расчета бюджета ошибок (error budget), скорости сгорания (burn rate) и т.п.

Также у ребят есть две занимательные статьи на эту тему:
▫️Implementing SRE workbook alerting with Prometheus only
▫️Advanced SLO infrastructure based on slo-exporter

Сам еще не пробовал, но выглядит интересно, думаю как нибудь взять в работу да познакомиться с этим поближе.

#SLO #SLI #prometheus

https://github.com/seznam/slo-exporter
Kubenurse - это небольшой сервис, который отслеживает все сетевые подключения в кластере Kubernetes. Kubenurse измеряет продолжительность запросов, записывает ошибки и экспортирует эти показатели в формате Prometheus.

Все выполненные проверки предоставляют метрики, которые можно использовать для мониторинга/предупреждения:

▫️Задержки и ошибки сети SDN
▫️Задержки и ошибки сети kubelet-to-kubelet
▫️Связь pod-apiserver
▫️Задержки и ошибки приема-передачи
▫️Задержки и ошибки сервисов (kube-proxy)
▫️Основные проблемы kube-apiserver
▫️Ошибки CoreDNS
▫️Внешние ошибки разрешения DNS

#k8s #kubernetes #prometheus #network

https://github.com/postfinance/kubenurse
👍3