Мониторим ИТ
8.07K subscribers
200 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Отправка Nginx json логов с помощью Vector в Clickhouse и Elasticsearch

Будучи написанным на языке Rust, он отличается высокой производительностью и низким потреблением оперативной памяти по сравнению с аналогами. Кроме того, большое внимание уделено функциям, связанным с корректностью, в частности, возможностям сохранения неотправленных событий в буфер на диске и ротации файлов. Читать дальше…
Systems Monitoring with Prometheus and Grafana (статья опубликована в блоге FlightAware — сервиса по отслеживанию полетов в реальном времени)

Hyperfeed — это основная система отслеживания полетов FlightAware. Её функционал используется в самых важных услугах компании: страницах с рейсами на веб-сайте, Firehose, FlightXML и предупреждениях о задержках рейсов. Так что если Hyperfeed перестает работать, то же самое происходит и с FlightAware. Читать дальше…
Forwarded from /usr/bin
The basics of deploying Logstash pipelines to Kubernetes

Когда я начинаю изучать что-то новое, я ставлю перед собой несколько небольших достижимых целей. Одна из задач, которые я написал, состояла в том, чтобы иметь полностью функциональный, работающий конвейер Logstash, работающий в Kubernetes, получая данные откуда-то, выполнять с ними какие-то действия, а затем отправлять их в ElasticSearch. Читать дальше…
Друзья нашего канала, команда MONQ Digital lab ищет в свой штат Technical partner manager.

MONQ — это платформа умного управления процессами на основе анализа больших данных и ИИ.

Нужен человек, который сумеет погрузиться в сложный мир продукта и выстроить эффективную техническую коммуникацию с российскими и зарубежными партнерами и заказчиками.

Работа фулл тайм, удалёнка. Подробности вакансии на Хабр Карьере.
Loki 1.6.0 released: Metric query performance up to 10x faster, push logs from any client to Promtail, query language and LogCLI enhancements, and more!

С проектом Loki дела идут полным ходом! И снова мы слишком долго ждали между релизами, появилось так много нового, что я не смогу перечислить все изменения. Но это не остановит меня от попыток, так что перейдем к делу.

Я собираюсь обсудить компоненты Loki и упомянуть изменения в виде абзацев. Посмотрим, что получится. Читать дальше…
Scaling Prometheus: How we’re pushing Cortex blocks storage to its limit and beyond

В Grafana Labs мы используем блочное хранилище хранилище в относительно большом масштабе, при этом некоторые из наших клиентов удаленно записывают от 10 до 30 миллионов активных серий (~ 1 млн выборок в секунду) и до 200 ГБ блоков данных от каждого клиента каждый день сохраняется в долговременном хранилище. Читать дальше…
New in Grafana 7.1: Gain new data insights with InfluxDB and Flux query support

Наблюдаемость между стеками и источниками данных упрощает идентификацию паттернов и добавление контекста к данным временных рядов из других источников, таких как реляционные базы данных или логи. Этот контекст является ключом к правильной интерпретации шаблонов данных и получения информации, которая затем может помочь улучшить процессы, повысить эффективность, выявить аномалии и помочь определить основные причины сбоев в обслуживании. Читать дальше…
🗓 19 августа в 10:00 Axoft и Gals Software приглашают принять участие в вебинаре по универсальной системе мониторинга Solarwinds.

Если у вас разнородная инфраструктура, которая создавалась на протяжении длительного периода времени, Solarwinds сможет закрыть вопрос мониторинга в максимально возможном объёме. Поддерживается мониторинг сетевых и серверных устройств различных вендоров, систем виртуализации, баз данных, анализ трафика и логов. Есть модули для управления конфигурациями серверов и сетевых устройств, управления адресным пространством и другие.

На вебинаре вы узнаете:

⚡️ как выявить и предотвратить сбои в работе оборудования (сервера, банкоматы, кассовые аппараты, платежные терминалы и другое);

⚡️ если сбой все-таки произошел, как быстро найти причину и устранить ее прямо из панели задач;

⚡️ как организовать удаленную работу сотрудников;

⚡️ как организовать мониторинг приложений и сайтов.

Во второй части вебинара будет доклад о реальных кейсах внедрения системы Solarwinds в крупном российском банке и компаниях нефтегазового сектора.

Регистрация на вебинар
Envoy 1.15 introduces a new Postgres extension with monitoring support

Новый плагин Envoy для PostgreSQL.
Мониторинг вашей инфраструктуры с помощью Grafana, InfluxDB и CollectD

Как это устроено в одной компании.
Cameron McCloskey рассказывает в блоге Grafana как устроен его дашборд для домашнего использования. Особенно интересно в части отображения видеопотока.
Grafana уже приглашает на ObservabilityCON, который состоится 26-29 октября. Обещают рассказать о новинках в своих решениях и юзкейсах Grafana & Prometheus & Loki & Cortex.
PRTG объявил об альянсе с Flowmon. В практическом плане это означает интеграцию двух решений. Работает на основе встроенных в PRTG сенсорах:

- Сенсор SNMP, который контролирует устройства Flowmon.

- Сенсор Python Script для отображения значений мониторинга из Flowmon в PRTG.

События из Flowmon будут видны в PRTG, из которого будет возможен переход в Flowmon для диагностики проблемы. Если хотите узнать подробнее о работе этой интеграции, приходите 16 сентября на вебинар, который проводят совместно PRTG и Flowmon.
Чем мониторить кластеры на Kubernetes: три открытых инструмента — один из них в формате игры

Это — наша компактная подборка бесплатных инструментов, позволяющих оценить производительность и стабильность контейнеризированных приложений. Читать дальше на Хабре...
Мониторинг микросервисов Flask с помощью Prometheus

Читать дальше
Как сократить объем дискового пространства, занимаемого БД Zabbix? Есть несколько способов:

1. Включить троттлинг (throttling). Троттлинг — это возможность пропуска одинаковых значений. То есть если значение метрики не изменилось, оно не записывается хранилище и, соответственно, не занимает место на диске. Работает с версии 4.2.

Где искать. В правилах препроцессинга.

В Zabbix возможна настройка троттлинга двух видов:

⚡️ Discard unchanged — игнор повторяющихся значений. В этом случае график будет пустым, если метрика не меняется.

⚡️ Discard unchanged with heartbeat — игнор повторяющихся значений, но с регулярной проверкой жива ли метрика. На графике будут значения. Этот параметр препроцессинга требует ввода периода проверки. Если данные собираются раз в секунду, а интервал задан одной минутой, то Zabbix превратит ежесекундный поток единичек в ежеминутный поток.

2. Настроить переменное значение периода сбора данных. Любой элемент данных можно собирать с разной периодичностью (или вообще не собирать) в зависимости от времени суток, дня недели или дня месяца. Примеры эпизодического сбора:

wd1-5h9 — каждый день с понедельника по пятницу в 9:00.
h9m/30;h11 — каждый день в 9:00, 9:30, 10:00, 10:30, 11:00.
h9-10m10-40/30 — каждый день в 9:10, 9:40, 10:10, 10:40.
md1wd1h9m30 — каждый первый день месяца в 9:30 если это понедельник.

Где искать. В настройках элементов данных (items), раздел пользовательский интервал (custom interval).

3. Удалять значение исходного элемента данных для зависимых элементов данных. Простой пример: вы выполняете команду, которая возвращает портянку с данными, которые вы потом распознаёте при помощи зависимых метрик. Нет никакого смысла хранить эти данные. тем более если это большой текстовый блок.

Где искать. В настройках элементов данных, раздел период хранения истории. Установить значение в «не хранить».


👍 — спасибо, буду использовать

👎 — спасибо, уже использую

👀 — у меня резиновые диски
Это не реклама, но я случайно наткнулся на пост на Хабре, что у издательства Питер распродажа до 22 сентября (50% на электрокниги, 30% на бумагу). По запросу «Site Reliability» на их сайте выдаются две книги и вы уже, думаю, догадываетесь какие. Неплохой шанс все-таки их прочитать, если на английском не очень-то и хотелось читать.

Купон на бумагу — Бумажная книга, купон на электрокниги — Электронная книга. Да, вот так вот незатейливо.
# zabbix_get -s my.prod.host -k system.run["rm -rf /var/log/applog/"]

Эту команду и не только её можно выполнить удаленно на Linux сервере, отправив запрос через Zabbix-агент. Но т.к. на Linux агент выполняется без прав суперпользователя, это еще не так страшно, но с Windows дело может принять совсем другой оборот.

В этой статье на Хабре Тихон Усков, Инженер интеграции Zabbix, рассказывает о работе с черными и белыми списками для метрик на стороне агента. Советую прочитать, особенно, если используете активные проверки. Мониторинг — это хорошо, а безопасный мониторинг — ещё лучше.
Creating Monitoring Dashboards

Недавно наши команды в Hotels.com, входящей в Expedia Group, начали переходить с Graphite на платформу внутренних показателей, основанную на Prometheus. Мы увидели в этом возможность улучшить нашу наблюдаемость и, среди прочего, предоставили набор простых рекомендаций, которые помогут с миграцией. Читать на Медиуме.