Мониторим ИТ
8.07K subscribers
200 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Grafana уже приглашает на ObservabilityCON, который состоится 26-29 октября. Обещают рассказать о новинках в своих решениях и юзкейсах Grafana & Prometheus & Loki & Cortex.
PRTG объявил об альянсе с Flowmon. В практическом плане это означает интеграцию двух решений. Работает на основе встроенных в PRTG сенсорах:

- Сенсор SNMP, который контролирует устройства Flowmon.

- Сенсор Python Script для отображения значений мониторинга из Flowmon в PRTG.

События из Flowmon будут видны в PRTG, из которого будет возможен переход в Flowmon для диагностики проблемы. Если хотите узнать подробнее о работе этой интеграции, приходите 16 сентября на вебинар, который проводят совместно PRTG и Flowmon.
Чем мониторить кластеры на Kubernetes: три открытых инструмента — один из них в формате игры

Это — наша компактная подборка бесплатных инструментов, позволяющих оценить производительность и стабильность контейнеризированных приложений. Читать дальше на Хабре...
Мониторинг микросервисов Flask с помощью Prometheus

Читать дальше
Как сократить объем дискового пространства, занимаемого БД Zabbix? Есть несколько способов:

1. Включить троттлинг (throttling). Троттлинг — это возможность пропуска одинаковых значений. То есть если значение метрики не изменилось, оно не записывается хранилище и, соответственно, не занимает место на диске. Работает с версии 4.2.

Где искать. В правилах препроцессинга.

В Zabbix возможна настройка троттлинга двух видов:

⚡️ Discard unchanged — игнор повторяющихся значений. В этом случае график будет пустым, если метрика не меняется.

⚡️ Discard unchanged with heartbeat — игнор повторяющихся значений, но с регулярной проверкой жива ли метрика. На графике будут значения. Этот параметр препроцессинга требует ввода периода проверки. Если данные собираются раз в секунду, а интервал задан одной минутой, то Zabbix превратит ежесекундный поток единичек в ежеминутный поток.

2. Настроить переменное значение периода сбора данных. Любой элемент данных можно собирать с разной периодичностью (или вообще не собирать) в зависимости от времени суток, дня недели или дня месяца. Примеры эпизодического сбора:

wd1-5h9 — каждый день с понедельника по пятницу в 9:00.
h9m/30;h11 — каждый день в 9:00, 9:30, 10:00, 10:30, 11:00.
h9-10m10-40/30 — каждый день в 9:10, 9:40, 10:10, 10:40.
md1wd1h9m30 — каждый первый день месяца в 9:30 если это понедельник.

Где искать. В настройках элементов данных (items), раздел пользовательский интервал (custom interval).

3. Удалять значение исходного элемента данных для зависимых элементов данных. Простой пример: вы выполняете команду, которая возвращает портянку с данными, которые вы потом распознаёте при помощи зависимых метрик. Нет никакого смысла хранить эти данные. тем более если это большой текстовый блок.

Где искать. В настройках элементов данных, раздел период хранения истории. Установить значение в «не хранить».


👍 — спасибо, буду использовать

👎 — спасибо, уже использую

👀 — у меня резиновые диски
Это не реклама, но я случайно наткнулся на пост на Хабре, что у издательства Питер распродажа до 22 сентября (50% на электрокниги, 30% на бумагу). По запросу «Site Reliability» на их сайте выдаются две книги и вы уже, думаю, догадываетесь какие. Неплохой шанс все-таки их прочитать, если на английском не очень-то и хотелось читать.

Купон на бумагу — Бумажная книга, купон на электрокниги — Электронная книга. Да, вот так вот незатейливо.
# zabbix_get -s my.prod.host -k system.run["rm -rf /var/log/applog/"]

Эту команду и не только её можно выполнить удаленно на Linux сервере, отправив запрос через Zabbix-агент. Но т.к. на Linux агент выполняется без прав суперпользователя, это еще не так страшно, но с Windows дело может принять совсем другой оборот.

В этой статье на Хабре Тихон Усков, Инженер интеграции Zabbix, рассказывает о работе с черными и белыми списками для метрик на стороне агента. Советую прочитать, особенно, если используете активные проверки. Мониторинг — это хорошо, а безопасный мониторинг — ещё лучше.
Creating Monitoring Dashboards

Недавно наши команды в Hotels.com, входящей в Expedia Group, начали переходить с Graphite на платформу внутренних показателей, основанную на Prometheus. Мы увидели в этом возможность улучшить нашу наблюдаемость и, среди прочего, предоставили набор простых рекомендаций, которые помогут с миграцией. Читать на Медиуме.
Monitoring memory usage of a running Python program

В Survata мы обрабатываем много данных, используя Python и его библиотеки pandas и scikit-learn. Это означает, что мы используем большое количество облачных ресурсов и, в результате, наш ежемесячный счет за хостинг может быть огромным.

Один из способов сократить расходы на облачные ресурсы — убедиться, что мы не используем большее ресурсов, чем фактически необходимо. Облачные провайдеры позволяют легко развернуть сервер с несколькими ГБ ОЗУ, но если фактический рабочий процесс использует только часть этой памяти, вы тратите ресурсы и деньги впустую. Читать дальше на Медиуме.
Новые шаблоны в Zabbix — IPMI, Mikrotik, MSSQL

В этой статье на Хабре расшифровка доклада Максима Чудинова с Zabbix Meetup, который был 28 августа 2020 года.
Вернуть пропавший скутер, или история одного IoT мониторинга

Интересная статья о подборе системы мониторинга для электроскутеров (остановились в итоге на TICK) и история о пропавшем скутере. Читайте на Хабре.
Hammering nails into Kapacitor coffin

Георгий Шуклин в своём блоге на Медиуме рассказывает об отрицательном опыте работы с Kapacitor.
Forwarded from /usr/bin
Introducing kubectl flame: Effortless Profiling on Kubernetes

Profiling is the act of analyzing the performance of applications in order to improve poorly performing sections of code.
One of the most popular ways to visualize a profile and quickly identifying performance issues is by generating a Flame Graph. Читать дальше.
О централизации журналов Docker
Forwarded from /usr/bin
Centralize Your Docker Logging With Syslog

During one of the projects that I worked on in recent years, I had the task of integrating a centralized logging system with the applications stack we use (following a microservice architecture). Читать дальше.
Семь «НЕ» мониторинга ИТ-инфраструктуры

Пару недель назад у этой статьи был двухлетний юбилей. А она как была актуальной так и остаётся. Автор, можно сказать, писал на века.

📌1. НЕ внедряйте инструмент мониторинга
📌2. Интегратор НЕ сделает за вас всей работы
📌3. НЕ путайте мониторинг и администрирование ИТ-инфраструктуры
📌4. НЕ рассчитывайте, что ваши подчиненные будут использовать мониторинг, если вы сами этого не делаете
📌5. НЕ заставляйте сотрудников работать с системой мониторинга
📌6. НЕ концентрируйтесь на проверке функциональности системы мониторинга во время ее испытаний
📌7. Мониторинг НЕ начнет приносить пользу, пока вы не начнете работать с ним и адаптировать его под свои потребности
Кто занимается Zabbix, знает про его возможности обнаружения сетевых устройств. В Zabbix, обнаружение сетевых устройств возможно с Zabbix-сервера или Zabbix-прокси.

Вот вам реальный кейс. Есть сеть из нескольких сотен магазинов (а может быть аптек или заправок или кафе) со своими серыми внутренними IP-адресами и 1 белым, через который во внешний мир выглядывает маршрутизатор. Внутри каждого такого объекта к маршрутизатору подключена одна-две рабочих станции (на борту 1С с локальным PostgreSQL) и еще десяток устройств: веб-камеры, принтер и другое оборудование. Всё внутри работает через DHCP.

Самое логичное решение — установка на рабочие станции активного Zabbix-агента и сбор шаблонами метрик производительности рабочих станций, 1С, PostgreSQL и может какая-то базовая инвентаризация по железу или ПО. Агент ходит к Zabbix-серверу и запрашивает для себя проверки. Подключения, разумеется, через сертификат или PSK. Но есть вопрос: как обнаружить всё сетевое окружение рабочей и поставить его на мониторинг хотя бы по пингу, если установка Zabbix-прокси на и так загруженные рабочие станции полнейший оверкилл?

Решение такой задачи (не то, чтобы уж очень изящное): чтение ARP-таблиц рабочих станций (см. прикрепленный скриншот), дальнейшее обнаружение из нее новых узлов и включение пинговалки. Если немного усложнить решение, можно зафильтровать служебные адреса и автоматические добавлять в мониторинг только заранее заданный пул адресов.

Как вам такое решение? В комментариях можно поделиться мнением или рассказать о своих интересных задачах. Если у вас есть вопрос или нужен консалтинг по Zabbix, напишите в личные сообщения.

👍 — интересный подход, может пригодиться.

👎 — я знаю лучше. Расскажите в комментариях пжл.

👀 — у меня связная сеть и таких кейсов нет
Prometheus High Availability and Fault Tolerance strategy, long term storage with VictoriaMetrics

Статья на Медиуме.