Dev-Ops.su
305 subscribers
79 photos
4 files
206 links
Полезные утилиты, статьи, доклады и обзоры.
Канал для DevOps, SRE, Архитекторов и прочих *Ops

https://dev-ops.su

#DevOps #SRE #DevSecOps #SecOps #ChatOps #GitOps #DocsOps #MLOps #FinOps #NoOps #CloudOps #CIOps #CDOps #AnyOps #BuzzWordOps

@woozymasta
Download Telegram
SLO-Tracker - простой, но эффективный способ отслеживать SLO и ошибки. Имеет наглядный дашборд, может быть интегрирован с несколькими инструментами оповещения через интеграцию с веб-хуком для получения сообщений об инцидентах SLO.

Поддерживает интеграцию с:
Prometheus
Datadog
Newrelic
Pingdom
Grafana
SLO-Tracker API

#slo #sla #sre #prometheus

https://github.com/roshan8/slo-tracker
Kafka Lag Exporter - экспортер метрик лага Kafka consumer group.
Akka подобное приложение написанное на Scala. Метрики доступны для Prometheus, InfluxDB и Graphite. Имеется интеграцию с Strimzi оператором.

Одной из наиболее уникальных функций Kafka Lag Exporter является его способность предугадывать продолжительность времени, в течение которого consumer group отстает от последнего созданного значения для определенного partition.
Lag offset полезен, чтобы понять, что consumer group лагает, но он не дает представления о фактической задержке приложения-потребителя.

#kafka #strimzi #exporter #prometheus #influx #graphite

https://github.com/lightbend/kafka-lag-exporter
prom-label-proxy - прокси сервер для Prometheus позволяющий разделять Prometheus и Alertmanager по меткам для каждого тенанта, что позволит создать мультиарендный доступ к одному Prometheus.

#prometheus #alertmanager #multitenancy

https://github.com/prometheus-community/prom-label-proxy
Если вам недостаточно метрик TCP из BlackBox exporter, нужна утилита для профилирования TCP или нужен TCP хелзчекер? Посмотрите на TCPProbe.

TCPProbe
- это современный инструмент и сервис TCP для наблюдения за производительностью сети. Он предоставляет информацию о базовом TCP-сеансе сокета, TLS и HTTP (более 60 метрик json и prometheus). А еще в нем есть gRPC.

#tcpprobe #tcp #prometheus #liveness

https://github.com/mehrdadrad/tcpprobe
Как то пропустил из виду еще одно решение для долгосрочного хранения метрик Prometheus. В копилку к таким решениям как Cortex, Thanos и VictoriaMetrics добавлю M3 от парней из Uber.

M3 (m3db) - выбор для компаний Cloud Native, желающих расширить свои системы мониторинга на основе Prometheus. M3 может использоваться как удаленное хранилище Prometheus и имеет 100% совместимость с PromQL. Платформа M3 предназначена для создания масштабируемого и настраиваемого многопользовательского хранилища под ключ для Prometheus, Graphite и других стандартных схем метрик. Умеет принимать в себя метрики из InfluxDB.

Изначально M3 был разработан в Uber для обеспечения прозрачности бизнес-операций, микросервисов и инфраструктуры Uber. Благодаря способности легко масштабироваться по горизонтали, M3 предоставляет единое централизованное решение для хранения данных для всех случаев использования мониторинга.

Также имеется Kubernetes Operator

#m3 #m3db #prometheus #cortex #thanos #victoriametrics

https://github.com/m3db/m3
Тут timescale оказывается свой инструмент для установки набора observability развивает.

Tobs - CLI утилита (инсталятор Helm чартов), цель которой — максимально упростить установку полного стека наблюдаемости (Observability Stack) в кластер Kubernetes. Установит в кластер и настроит:

- Prometheus
- AlertManager
- Grafana
- Node-Exporter
- Kube-State-Metrics
- Prometheus-Operator
- Promscale
- TimescaleDB
- Promlens
- Opentelemetry-Operator
- Jaeger Query

Но стоит ли использовать TimeScale (PromScale) для долгосрочного хранения метрик, это спорный вопрос. На всякий случай приложу пару статей с сравнением:
- VictoriaMetrics vs TimescaleDB vs InfluxDB
- Promscale vs VictoriaMetrics 😲

#k8s #kubernetes #prometheus #timescale #promscale #observability #jaeger #grafana #alertmanager

https://github.com/timescale/tobs
😱1
prometheus_bot - бот для отправки событий Alertmanager в Telegram.

Со стороны Alertmanager настраиваем webhook_configs для отправки сообщений в бота, в боте настраиваем токен. На этом всё, никаких дополнительных команд бот не умеет. Но умеет использовать свой персональный gotmpl для сообщений, форматировать дату/время и единицы измерения.

#prometheus #alertmanager #telegram #bot

https://github.com/inCaller/prometheus_bot
🔥2
alertmanager-bot - бот для отправки событий Alertmanager в Telegram.

Этот бот умеет в разный набор комманд:
/start - Подписаться на оповещения.
/stop - Отписаться от уведомлений.
/status - Распечатать текущий статус.
/alerts - Список всех предупреждений.
/silences - Список всех отключенных уведомлений.
/chats - Список всех пользователей и групповых чатов, которые подписались.

Если сравнивать с prometheus_bot, здесь мы имеем необходимость в своей БД (bolt, etcd, consul), в отличии от prometheus_bot, где используется обычная веб-хук труба. Выбирайте, что вам подходит лучше, управляемый или простой бот.

#prometheus #alertmanager #telegram #bot

https://github.com/metalmatze/alertmanager-bot
1👍1🔥1
SLO exporter - это не просто экспортер Service Level Objectives, а скорее нормализатор и класификатор для метрик. Некая мидлварь, которая поможет сначала обработать весь ваш объем метрик Prometheus и уже передать в него самую мякотку.

Как это работает:
Каждое полученное событие имеет метаданные, которые используются для его классификации по определенному домену и классу SLO, как описано в главе рабочей книги SRE «Оповещения об SLO». Кроме того, имя приложения, в котором произошло событие, и идентификатор события также добавляются для облегчения отладки возможного нарушения SLO. Наконец, вы решаете на основе метаданных, было ли событие успешным или неудачным. Затем SLO-exporter предоставляет метрику Prometheus slo_domain_slo_class:slo_events_total{slo_domain="...", slo_class="...", result="..."}. Это дает вам количество успешных или неудачных событий, и это все, что вам нужно для расчета бюджета ошибок (error budget), скорости сгорания (burn rate) и т.п.

Также у ребят есть две занимательные статьи на эту тему:
▫️Implementing SRE workbook alerting with Prometheus only
▫️Advanced SLO infrastructure based on slo-exporter

Сам еще не пробовал, но выглядит интересно, думаю как нибудь взять в работу да познакомиться с этим поближе.

#SLO #SLI #prometheus

https://github.com/seznam/slo-exporter
Kubenurse - это небольшой сервис, который отслеживает все сетевые подключения в кластере Kubernetes. Kubenurse измеряет продолжительность запросов, записывает ошибки и экспортирует эти показатели в формате Prometheus.

Все выполненные проверки предоставляют метрики, которые можно использовать для мониторинга/предупреждения:

▫️Задержки и ошибки сети SDN
▫️Задержки и ошибки сети kubelet-to-kubelet
▫️Связь pod-apiserver
▫️Задержки и ошибки приема-передачи
▫️Задержки и ошибки сервисов (kube-proxy)
▫️Основные проблемы kube-apiserver
▫️Ошибки CoreDNS
▫️Внешние ошибки разрешения DNS

#k8s #kubernetes #prometheus #network

https://github.com/postfinance/kubenurse
👍3
Grafana Mimir — это открытое, горизонтально масштабируемое, высокодоступное, многопользовательское, долгосрочное хранилище для Prometheus.

Обеспечивает масштабирование до 1 миллиарда метрик и более благодаря высокой доступности, мультиарендности, надежному хранилищу и молниеносной производительности запросов в течение длительных периодов времени.

Mimir был запущен в Grafana Labs и анонсирован в 2022 году. Миссия проекта состоит в том, чтобы сделать его самой масштабируемой и самой производительной базой данных временных рядов. Парни из Grafana обещают производительность в 40 раз выше чем у Cortex.

▫️Миграция с Thanos/Prometheus
▫️Миграция c Cortex

#grafana #prometheus #mimir #cortex #thanos

https://github.com/grafana/mimir
https://grafana.com/oss/mimir/
👍31🔥1
Relabeler — бесплатная онлайн-песочница для анализа правил перемаркировки (relabeling) Prometheus.

Делают ребята из PromLabs — это платформа онлайн-тренингов для изучения Prometheus и авторы PromLens (редактор запросов и визуализатор для PromQL)

Также у них имеется бесплатный курс обучения по relabeling

#prometheus #relabeling

https://relabeler.promlabs.com
👍2🔥2
Cloudprober — это программное обеспечение для активного мониторинга и обнаружения сбоев. Некий аналог blackbox exporter.

▫️Использует активную модель мониторинга
▫️Имеет автодискавери c K8S
▫️Интеграции с Prometheus, DataDog, PostgreSQL, StackDriver, CloudWatch
▫️Быстрые встроенные проверки ICMP, HTTP, UDP и DNS
▫️Произвольные внешние пробы, можно писать свои скрипты
▫️Требует мало ресурсов

Подробнее в документации

#monitoring #prometheus #blackbox #k8s

https://github.com/cloudprober/cloudprober
https://cloudprober.org