Forwarded from Мониторим ИТ
PLG (Promtail, Loki, Grafana) stack for apps monitoring
PLG stack refers to Promtail, Loki and Grafana. Promtail extracts and collects logs from docker containers log files and pushes them to the Loki service which then Grafana uses to show logs in the log panel. Узнать как это устроено.
PLG stack refers to Promtail, Loki and Grafana. Promtail extracts and collects logs from docker containers log files and pushes them to the Loki service which then Grafana uses to show logs in the log panel. Узнать как это устроено.
Forwarded from Мониторим ИТ
Зонтичная система мониторинга, ресурсно-сервисные модели ML, AI и вот это всё в DX OI от Broadcom (бывший CA).
На Хабр!
На Хабр!
Хабр
Зонтичная система мониторинга и ресурсно-сервисные модели в обновленном DX Operations Intelligence от Broadcom (ex. CA)
В этом сентябре Broadcom (бывшая CA) выпустила новую версию 20.2 своего решения DX Operations Intelligence (DX OI). На рынке этот продукт позиционируется как зонтичная система мониторинга. Система...
Forwarded from Мониторим ИТ
Announcing Grafana Tempo, a massively scalable distributed tracing system
И целого Jaeger мало! В семействе Grafana пополнение. Перейти на распределенный трейсинг.
И целого Jaeger мало! В семействе Grafana пополнение. Перейти на распределенный трейсинг.
Forwarded from Мониторим ИТ
Pktvisor: Open source tool for network visibility
NS1 announced that pktvisor, a lightweight, open source tool for real-time network visibility, is available on Github. Читать дальше.
Репыч на Гитхабе.
NS1 announced that pktvisor, a lightweight, open source tool for real-time network visibility, is available on Github. Читать дальше.
Репыч на Гитхабе.
Forwarded from Мониторим ИТ
Выбор SLO: пошаговая инструкция в блоге Гугл на примере интернет-магазина.
Forwarded from Мониторим ИТ
How to use relabeling in Prometheus and VictoriaMetrics
Prometheus supports relabeling, which allows performing the following tasks:
⚡️ Adding new label
⚡️ Updating existing label
⚡️ Rewriting existing label
⚡️ Updating metric name
⚡️ Removing unneeded labels
⚡️ Removing unneeded metrics
⚡️ Dropping metrics on certain condition
⚡️ Modifying label names
⚡️ Chaining relabeling rules
Lets’ looks at how to perform each of these tasks. Читать дальше.
Prometheus supports relabeling, which allows performing the following tasks:
⚡️ Adding new label
⚡️ Updating existing label
⚡️ Rewriting existing label
⚡️ Updating metric name
⚡️ Removing unneeded labels
⚡️ Removing unneeded metrics
⚡️ Dropping metrics on certain condition
⚡️ Modifying label names
⚡️ Chaining relabeling rules
Lets’ looks at how to perform each of these tasks. Читать дальше.
Medium
How to use relabeling in Prometheus and VictoriaMetrics
Prometheus supports relabeling, which allows performing the following tasks:
Forwarded from Мониторим ИТ
Если у вас TICK или нечто похожее, есть хорошая новость:
InfluxDB 2.0 Open Source is Generally Available
Today, we are proud to announce that InfluxDB Open Source 2.0 is now generally available for everyone. It’s been a long road, and we couldn’t have done it without the amazing support and contributions of our community. This marks a new era for the InfluxDB platform, but it truly is just the beginning. Читать дальше.
InfluxDB 2.0 Open Source is Generally Available
Today, we are proud to announce that InfluxDB Open Source 2.0 is now generally available for everyone. It’s been a long road, and we couldn’t have done it without the amazing support and contributions of our community. This marks a new era for the InfluxDB platform, but it truly is just the beginning. Читать дальше.
InfluxData
InfluxDB 2.0 Open Source is Generally Available
Today, we are proud to announce that InfluxDB Open Source 2.0 is now generally available for everyone.
Forwarded from Мониторим ИТ
Trace discovery in Grafana Tempo using Prometheus exemplars, Loki 2.0 queries, and more
Let’s dig into some examples with a live playground to try it out! Читать дальше.
Let’s dig into some examples with a live playground to try it out! Читать дальше.
Grafana Labs
Trace discovery in Grafana Tempo using Prometheus exemplars, Loki 2.0 queries, and more | Grafana Labs
In this blog, we’ll explain how to use other data sources for trace discovery in Grafana Tempo, our new distributed tracing backend.
Forwarded from Мониторим ИТ
Попытка побороть шумовые события при помощи ML. Получилось результативно.
Хабр
Действительно ли полезен ML для снижения шума от алертов? Изучаем на примере одного метода
Предыстория Последние пару лет рынок систем мониторинга будоражила аббревиатура AIOps. Все вендоры начали гнаться за использованием искусственного интеллекта в своих сложных и дорогих системах....
Forwarded from Мониторим ИТ
One Grafana Dashboard With Multiple Prometheus Datasources
In this article, the following aspects of using Prometheus and Grafana will be demonstrated:
⚡ One Grafana server presenting data from multiple Prometheus resources.
⚡ Each dashboard would show only selected Prometheus datasources (not all configured datasources are relevant to all of the dashboards).
⚡ Present only the relevant data from each datasource according to the dashboard content. (For example in case the dashboard panel present one storage mount which has a different mount requirements per server).
⚡️ Useful dashboards for your needs:
- Host / VM Resources ( CPU, RAM, Storage and I/O, Network).
- Docker Containers (Use of resources per container).
Читать дальше.
In this article, the following aspects of using Prometheus and Grafana will be demonstrated:
⚡ One Grafana server presenting data from multiple Prometheus resources.
⚡ Each dashboard would show only selected Prometheus datasources (not all configured datasources are relevant to all of the dashboards).
⚡ Present only the relevant data from each datasource according to the dashboard content. (For example in case the dashboard panel present one storage mount which has a different mount requirements per server).
⚡️ Useful dashboards for your needs:
- Host / VM Resources ( CPU, RAM, Storage and I/O, Network).
- Docker Containers (Use of resources per container).
Читать дальше.
Medium
One Grafana Dashboard With Multiple Prometheus Datasources
In this article, the following aspects of using Prometheus and Grafana will be demonstrated:
Forwarded from Записки админа
🔍 How to use dig - пара полезных советов от Julia Evans о том, как можно использовать dig. #dns #dig #напочитать
Forwarded from Протестировал (Sergey Bronnikov)
Когда я делал тесты на основе библиотеки Jepsen для Tarantool, то планировал добавить в тестирование сбои на файловой системе. Почему-то так сложилось, что в самой библиотеке Jepsen нет сбоев для файловых систем и даже Кайл в одном из своих комментариев написал, что было бы здорово, если бы кто-то добавил их в Jepesen. Я знаю, что есть две файловые системы на основе FUSE: CharybdeFS от разработчиков ScyllaDB и PetardFS, но у меня есть вопросы к интерфейсам для описания сбоев в этих файловых системах. CharybdeFS при запуске поднимает сервер и по протоколу Thrift можно включать и выключать различные виды сбоев, а PetardFS использует XML для конфигурации при запуске. Ни первый ни второй вариант мне не понравился и я сделал свою файловую систему с тем же подходом, но конфигурацию можно описывать с помощью файла в формате INI (как конфиги в Windows). Это такой компромисс формата удобного и для чтения машиной и человеком. Файл с конфигурацией лежит на самой ФС и перечитывается каждый раз, когда его обновляют (мы же ФС и знаем какие операции и с какими файлами происходят). Как оказалось, такая тестовая ФС полезна не только при тестировании распределенных систем или баз данных. В тикеты пришёл парень, который тестирует парсер и ему нужно, чтобы за одно чтение возвращался ровно 1 байт из файла. Поэтому ассортимент возможных сбоев я ещё буду расширять.
https://github.com/ligurio/unreliablefs
https://github.com/ligurio/unreliablefs
GitHub
GitHub - ligurio/unreliablefs: A FUSE-based fault injection filesystem.
A FUSE-based fault injection filesystem. Contribute to ligurio/unreliablefs development by creating an account on GitHub.
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🔐 Иллюстрация и объяснение каждого байта TLS-соединения: https://proglib.io/w/e0f20879
tls12.xargs.org
The Illustrated TLS 1.2 Connection
Every byte of a TLS connection explained and reproduced
Forwarded from DevOps Deflope News
Для Амазона/Гугла есть много рекомендаций по настройке безопасности. Вот чеклист по безопасности и для Yandex.Cloud. Он достаточно простой, если у кого-то есть более подробные инструкции или чеклисты для Яндекса — присылайте его нам, опубликуем в канале тоже.
http://a.e42.link/jYoY7
http://a.e42.link/jYoY7
Forwarded from Грефневая Кафка (pro.kafka)
Кафка с медом (простите):
О том как говорят Кафку в Honeycomb.io
- решили делать свое, так как не хотят ждать ответа от суппорта, если что-то сломается у их клиентов
- переехали из AK 0.11 в Confluent Community (5.3/AK 2.3)
- переехали на Confluent Platform 6.0 (enterprise): Tiered Storage (в их паттерне надо держать 24-48 часов в быстром доступе NVMe, чтобы можно было быстро replay. И Self-balancing Kafka (Cruise Control сразу зашит))
- так же Кафка нормально живет на arm-е (они используют graviton от AWS).
- много правильных рассуждений на тему sizing - выбор на каком instance type бежать еще пол беды, надо понять сколько это будет стоить.
Не знаю, кому будет полезно. Копировать as is не надо, но я рекомендую как минимум разобраться с их ходом мыслей Liz Fong-Jones и ее команды (из зафолловить ее).
Там много правильных идей на тему цена-производительность-заплатить вендору
О том как говорят Кафку в Honeycomb.io
- решили делать свое, так как не хотят ждать ответа от суппорта, если что-то сломается у их клиентов
- переехали из AK 0.11 в Confluent Community (5.3/AK 2.3)
- переехали на Confluent Platform 6.0 (enterprise): Tiered Storage (в их паттерне надо держать 24-48 часов в быстром доступе NVMe, чтобы можно было быстро replay. И Self-balancing Kafka (Cruise Control сразу зашит))
- так же Кафка нормально живет на arm-е (они используют graviton от AWS).
- много правильных рассуждений на тему sizing - выбор на каком instance type бежать еще пол беды, надо понять сколько это будет стоить.
Не знаю, кому будет полезно. Копировать as is не надо, но я рекомендую как минимум разобраться с их ходом мыслей Liz Fong-Jones и ее команды (из зафолловить ее).
Там много правильных идей на тему цена-производительность-заплатить вендору
Honeycomb
Scaling Kafka at Honeycomb
See how Honeycomb reduced Kafka cost by a total of 87% per megabyte/sec of throughput w/ AWS’s new Amazon EC2 lm4gn instance family and Confluent Tiered Storage.
Forwarded from Грефневая Кафка (pro.kafka)
Вдогонку к предыдущему сообщению, тредик из Твитера Liz
- видео и код с прибаутками как запустить это дело на Graviton2
- в блоге еще сказано не юзать стоковую OpenJDK, а юзать Correto
- ZStandard compression можно юзать в проде
- видео и код с прибаутками как запустить это дело на Graviton2
- в блоге еще сказано не юзать стоковую OpenJDK, а юзать Correto
- ZStandard compression можно юзать в проде
Telegram
Грефневая Кафка (pro.kafka)
Кафка с медом (простите):
О том как говорят Кафку в Honeycomb.io
- решили делать свое, так как не хотят ждать ответа от суппорта, если что-то сломается у их клиентов
- переехали из AK 0.11 в Confluent Community (5.3/AK 2.3)
- переехали на Confluent Platform…
О том как говорят Кафку в Honeycomb.io
- решили делать свое, так как не хотят ждать ответа от суппорта, если что-то сломается у их клиентов
- переехали из AK 0.11 в Confluent Community (5.3/AK 2.3)
- переехали на Confluent Platform…