Кто такой SRE-инженер? Что за страшные аббревиатуры SLA, SLI и SLO?
Про это замечательно написали ребят из slurm в форме рассказа.
Рекомендую к прочтению тем кто ещё не разобрался, что это за зверь Site Reability Engineer
#longread #sre #slo #sla #sli
https://slurm.io/tpost/5sihp22ru1-kak-lyoha-stal-inzhenerom-po-sre-viduman
Про это замечательно написали ребят из slurm в форме рассказа.
Рекомендую к прочтению тем кто ещё не разобрался, что это за зверь Site Reability Engineer
#longread #sre #slo #sla #sli
https://slurm.io/tpost/5sihp22ru1-kak-lyoha-stal-inzhenerom-po-sre-viduman
slurm.io
Задачи SRE-инженера: SLA, SLI, SLO. Error budget, посмортем и блеймлесс-культура.
Какие задачи решает SRE-инженер. Метрики SLA, SLI, SLO, error budget, postmortem, blameless-культура.
Sloth - генератор SLO для Prometheus.
Поддерживает OpenSLO, и генерирует дашборды для Grafana, имеет и расширяется SLI плагинами, есть CLI.
Выглядит очень годно, буду тестить.
#prometheus #slo #sli
https://github.com/slok/sloth
Поддерживает OpenSLO, и генерирует дашборды для Grafana, имеет и расширяется SLI плагинами, есть CLI.
Выглядит очень годно, буду тестить.
#prometheus #slo #sli
https://github.com/slok/sloth
GitHub
GitHub - slok/sloth: 🦥 Easy and simple Prometheus SLO (service level objectives) generator
🦥 Easy and simple Prometheus SLO (service level objectives) generator - slok/sloth
SLO exporter - это не просто экспортер Service Level Objectives, а скорее нормализатор и класификатор для метрик. Некая мидлварь, которая поможет сначала обработать весь ваш объем метрик Prometheus и уже передать в него самую мякотку.
Как это работает:
Каждое полученное событие имеет метаданные, которые используются для его классификации по определенному домену и классу SLO, как описано в главе рабочей книги SRE «Оповещения об SLO». Кроме того, имя приложения, в котором произошло событие, и идентификатор события также добавляются для облегчения отладки возможного нарушения SLO. Наконец, вы решаете на основе метаданных, было ли событие успешным или неудачным. Затем SLO-exporter предоставляет метрику Prometheus
Также у ребят есть две занимательные статьи на эту тему:
▫️Implementing SRE workbook alerting with Prometheus only
▫️Advanced SLO infrastructure based on slo-exporter
Сам еще не пробовал, но выглядит интересно, думаю как нибудь взять в работу да познакомиться с этим поближе.
#SLO #SLI #prometheus
https://github.com/seznam/slo-exporter
Как это работает:
Каждое полученное событие имеет метаданные, которые используются для его классификации по определенному домену и классу SLO, как описано в главе рабочей книги SRE «Оповещения об SLO». Кроме того, имя приложения, в котором произошло событие, и идентификатор события также добавляются для облегчения отладки возможного нарушения SLO. Наконец, вы решаете на основе метаданных, было ли событие успешным или неудачным. Затем SLO-exporter предоставляет метрику Prometheus
slo_domain_slo_class:slo_events_total{slo_domain="...", slo_class="...", result="..."}. Это дает вам количество успешных или неудачных событий, и это все, что вам нужно для расчета бюджета ошибок (error budget), скорости сгорания (burn rate) и т.п.Также у ребят есть две занимательные статьи на эту тему:
▫️Implementing SRE workbook alerting with Prometheus only
▫️Advanced SLO infrastructure based on slo-exporter
Сам еще не пробовал, но выглядит интересно, думаю как нибудь взять в работу да познакомиться с этим поближе.
#SLO #SLI #prometheus
https://github.com/seznam/slo-exporter
GitHub
GitHub - seznam/slo-exporter: Slo-exporter computes standardized SLI and SLO metrics based on events coming from various data sources.
Slo-exporter computes standardized SLI and SLO metrics based on events coming from various data sources. - seznam/slo-exporter