Dev0ps

Trace discovery in Grafana Tempo using Prometheus exemplars, Loki 2.0 queries, and more

Let’s dig into some examples with a live playground to try it out! Читать дальше.

Grafana Labs

Trace discovery in Grafana Tempo using Prometheus exemplars, Loki 2.0 queries, and more | Grafana Labs

In this blog, we’ll explain how to use other data sources for trace discovery in Grafana Tempo, our new distributed tracing backend.

12 views12:22

Dev0ps

Forwarded from Мониторим ИТ

Попытка побороть шумовые события при помощи ML. Получилось результативно.

Хабр

Действительно ли полезен ML для снижения шума от алертов? Изучаем на примере одного метода

Предыстория Последние пару лет рынок систем мониторинга будоражила аббревиатура AIOps. Все вендоры начали гнаться за использованием искусственного интеллекта в своих сложных и дорогих системах....

12 views12:26

Dev0ps

Forwarded from Мониторим ИТ

One Grafana Dashboard With Multiple Prometheus Datasources

In this article, the following aspects of using Prometheus and Grafana will be demonstrated:

⚡ One Grafana server presenting data from multiple Prometheus resources.

⚡ Each dashboard would show only selected Prometheus datasources (not all configured datasources are relevant to all of the dashboards).

⚡ Present only the relevant data from each datasource according to the dashboard content. (For example in case the dashboard panel present one storage mount which has a different mount requirements per server).

⚡️ Useful dashboards for your needs:
- Host / VM Resources ( CPU, RAM, Storage and I/O, Network).
- Docker Containers (Use of resources per container).

Читать дальше.

Medium

One Grafana Dashboard With Multiple Prometheus Datasources

In this article, the following aspects of using Prometheus and Grafana will be demonstrated:

12 views12:27

Dev0ps

Forwarded from Записки админа

🔍 How to use dig - пара полезных советов от Julia Evans о том, как можно использовать dig. #dns #dig #напочитать

7 views15:27

Dev0ps

Forwarded from Протестировал (Sergey Bronnikov)

Когда я делал тесты на основе библиотеки Jepsen для Tarantool, то планировал добавить в тестирование сбои на файловой системе. Почему-то так сложилось, что в самой библиотеке Jepsen нет сбоев для файловых систем и даже Кайл в одном из своих комментариев написал, что было бы здорово, если бы кто-то добавил их в Jepesen. Я знаю, что есть две файловые системы на основе FUSE: CharybdeFS от разработчиков ScyllaDB и PetardFS, но у меня есть вопросы к интерфейсам для описания сбоев в этих файловых системах. CharybdeFS при запуске поднимает сервер и по протоколу Thrift можно включать и выключать различные виды сбоев, а PetardFS использует XML для конфигурации при запуске. Ни первый ни второй вариант мне не понравился и я сделал свою файловую систему с тем же подходом, но конфигурацию можно описывать с помощью файла в формате INI (как конфиги в Windows). Это такой компромисс формата удобного и для чтения машиной и человеком. Файл с конфигурацией лежит на самой ФС и перечитывается каждый раз, когда его обновляют (мы же ФС и знаем какие операции и с какими файлами происходят). Как оказалось, такая тестовая ФС полезна не только при тестировании распределенных систем или баз данных. В тикеты пришёл парень, который тестирует парсер и ему нужно, чтобы за одно чтение возвращался ровно 1 байт из файла. Поэтому ассортимент возможных сбоев я ещё буду расширять.

https://github.com/ligurio/unreliablefs

GitHub

GitHub - ligurio/unreliablefs: A FUSE-based fault injection filesystem.

A FUSE-based fault injection filesystem. Contribute to ligurio/unreliablefs development by creating an account on GitHub.

13 views16:22

Dev0ps

https://engineering.razorpay.com/scaling-to-trillions-of-metric-data-points-f569a5b654f2

Medium

Scaling to trillions of metric data points

A journey of building a robust metrics aggregation platform

13 views16:31

Add a comment

Dev0ps

Forwarded from Библиотека программиста | программирование, кодинг, разработка

🔐 Иллюстрация и объяснение каждого байта TLS-соединения: https://proglib.io/w/e0f20879

tls12.xargs.org

The Illustrated TLS 1.2 Connection

Every byte of a TLS connection explained and reproduced

14 views18:30

Dev0ps

Forwarded from DevOps Deflope News

Для Амазона/Гугла есть много рекомендаций по настройке безопасности. Вот чеклист по безопасности и для Yandex.Cloud. Он достаточно простой, если у кого-то есть более подробные инструкции или чеклисты для Яндекса — присылайте его нам, опубликуем в канале тоже.
http://a.e42.link/jYoY7

11 views07:22

Dev0ps

Forwarded from Грефневая Кафка (pro.kafka)

Кафка с медом (простите):
О том как говорят Кафку в Honeycomb.io

- решили делать свое, так как не хотят ждать ответа от суппорта, если что-то сломается у их клиентов
- переехали из AK 0.11 в Confluent Community (5.3/AK 2.3)
- переехали на Confluent Platform 6.0 (enterprise): Tiered Storage (в их паттерне надо держать 24-48 часов в быстром доступе NVMe, чтобы можно было быстро replay. И Self-balancing Kafka (Cruise Control сразу зашит))
- так же Кафка нормально живет на arm-е (они используют graviton от AWS).
- много правильных рассуждений на тему sizing - выбор на каком instance type бежать еще пол беды, надо понять сколько это будет стоить.

Не знаю, кому будет полезно. Копировать as is не надо, но я рекомендую как минимум разобраться с их ходом мыслей Liz Fong-Jones и ее команды (из зафолловить ее).
Там много правильных идей на тему цена-производительность-заплатить вендору

Honeycomb

Scaling Kafka at Honeycomb

See how Honeycomb reduced Kafka cost by a total of 87% per megabyte/sec of throughput w/ AWS’s new Amazon EC2 lm4gn instance family and Confluent Tiered Storage.

16 views23:32

Dev0ps

Forwarded from Грефневая Кафка (pro.kafka)

Вдогонку к предыдущему сообщению, тредик из Твитера Liz
- видео и код с прибаутками как запустить это дело на Graviton2
- в блоге еще сказано не юзать стоковую OpenJDK, а юзать Correto
- ZStandard compression можно юзать в проде

Грефневая Кафка (pro.kafka)

Кафка с медом (простите):
О том как говорят Кафку в Honeycomb.io

- решили делать свое, так как не хотят ждать ответа от суппорта, если что-то сломается у их клиентов
- переехали из AK 0.11 в Confluent Community (5.3/AK 2.3)
- переехали на Confluent Platform…

15 views23:32

Dev0ps

Forwarded from DevOps drawer

https://rakyll.org/shardz/

18 views23:56

Dev0ps

Forwarded from Мониторим ИТ

irate() vs rate() — What’re they telling you?

Prometheus makes available great functions for data aggregation by timeline. Among these functions, I focused my analysis on irate() and rate() which give us similar outcomes but they work in different way. Читать дальше.

Medium

irate() vs rate() — What’re they telling you?

Prometheus makes available great functions for data aggregation by timeline. Among these functions, I focused my analysis on irate() and…

17 views17:15

Dev0ps

Forwarded from Инжиниринг Данных (Dmitry Anoshin)

Оказывается у AWS есть альтернативная (честная) версия их AWS Service Health Dashboard. Потому что, как мне сказали оригинальный продукт - bullshit. Поэтому, если у вас AWS то вам бует полезно добавить в закладки https://stop.lying.cloud/

16 views17:52

Dev0ps

https://github.com/cossacklabs/acra

GitHub

GitHub - cossacklabs/acra: Database security suite. Database proxy with field-level encryption, search through encrypted data,…

Database security suite. Database proxy with field-level encryption, search through encrypted data, SQL injections prevention, intrusion detection, honeypots. Supports client-side and proxy-side (&...

19 views06:45

Add a comment

Dev0ps

https://www.genui.com/open-source/s3p-massively-parallel-s3-copying

S3P - Massively Parallel S3 Copying - GenUI

S3P - Massively Parallel S3 Copying

S3P is an open source, massively parallel tool for listing, comparing, copying, summarizing and syncing AWS S3 buckets.

19 views09:10

Add a comment

Dev0ps

Forwarded from ДевОпс Інженер 🇺🇦 (Oleg Mykolaichenko)

Introducing Prometheus Agent Mode

The Agent mode optimizes Prometheus for the remote write use case. It disables querying, alerting, and local storage, and replaces it with a customized TSDB WAL. Everything else stays the same: scraping logic, service discovery and related configuration.

Нормально! 💪

https://prometheus.io/blog/2021/11/16/agent/

prometheus.io

Introducing Prometheus Agent Mode, an Efficient and Cloud-Native Way for Metric Forwarding | Prometheus

An open-source monitoring system with a dimensional data model, flexible query language, efficient time series database and modern alerting approach.

19 views15:30

Dev0ps

Forwarded from From Junior to CTO (Ivan Osipov)

Production Readiness Review (PRR)

Несколько лет назад Google рассказал миру о том кто такие SRE (Site Reliability Engineers) и как они помогут обеспечить надежность приложения в продакшене. Кто-то из вас наверняка слышал, что SRE реализуют практики DevOps, а сам по себе DevOps это больше философия чем роль в команде. PRR это процесс, который позволяет подготовить приложение к продакшену. На первом этапе рождается чеклист, лучше всего если чеклист отражает опыт команды и учитывает нюансы эксплуатации продукта. Когда чеклист готов, начинается процесс ревью, человек от команды и ревьюер встречаются и на коротких митингах проходят чеклист, сфокусированно, не распыляясь, качественно. Сам факт прохождения PRR обещает значительно уменьшить количество проблем в продакшене, как минимум благодаря тому что к некоторым из них мы уже готовы и зафиксировали как риски

Вот небольшая статья от GrafanaLabs: https://grafana.com/blog/2021/10/13/how-were-building-a-production-readiness-review-process-at-grafana-labs/

#practice #sre

Grafana Labs

How we’re building a production readiness review process at Grafana Labs | Grafana Labs

To help the on-call rotation manage our multiple products, we’re having experienced engineers review and identify potential issues.

15 views15:31

Dev0ps

Не повторяйте: мои инфраструктурные ошибки / Хабр
https://habr.com/ru/company/ispsystem/blog/594819/

Хабр

Не повторяйте: мои инфраструктурные ошибки

По мере своего карьерного роста я все чаще и чаще испытываю чувство дежавю. Во время личной или деловой встречи моему собеседнику достаточно упомянуть какой-то малозначительный факт — и я сразу же...

1.34K views07:54

Add a comment

Dev0ps