Мониторим ИТ
8.09K subscribers
206 photos
2 files
1.53K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Set up Monitoring and Logging in a Docker Swarm Cluster

В этой статье рассмотрен процесс настройки системы мониторинга и логирования в кластере Docker Swarm. Настройка обеспечит кластеру наблюдаемость, а логи и показатели производительности будут визуализироваться в режиме реального времени. Инструменты, которые описаны в статье, включают: Docker Swarm, Traefik, Grafana, Prometheus, cAdvisor, Node Exporter, Loki, Promtail.

❗️Статья на medium.com
Grafana OnCall (OSS) — всё?

В своем блоге Grafana объявила о завершении поддержки этого продукта и перевод его в архив примерно через год. Что ж продукт был неоднозначным, непростым в развертывании и настройке. Сейчас весь функционал OnCall будет развиваться в рамках Grafana Cloud IRM (в облаке и за деньги). Они пишут, что поддержат решение сообщество, если кто-то захочет контрибьютить и поддерживать этот продукт.

Этим постом я хотел напомнить, что есть и другие интересные продукты для решения задач OnCall, например Keep.

Пользователи Grafana OnCall, расскажите в комментариях куда планируете переходит или вы уже находитесь в процессе перехода. Что вообще думаете про сложившуюся ситуацию?
🤔13👍4👎1
tailpipe

Утилита для селекта из логов. Есть готовые пресеты для обнаружения результатов, соответствующих MITRE ATT&CK. Работает локально, использует аналитику в памяти DuckDB и оптимизированное хранилище Parquet.

Репыч на Гитхабе
🔥3👍2
Nping

Поддерживает одновременный пинг для нескольких адресов, визуальное отображение задержки, отображает в реальном времени максимальную, минимальную, среднюю задержку, скорость потери пакетов и других показателей.

Репыч на Гитхабе
👍10🔥6
pgwatch

Утилита для мониторинга PostgreSQL с открытым исходным кодом. Работает в комплекте с Grafana.

Репыч на Гитхаб
👍14🔥3
Why VictoriaLogs is a better alternative to Grafana Loki?

А вы как думаете почему? Не потому ли, что статью написал разработчик Victoria Logs? 🙃

В статье сравнивают Loki с ElasticSearch, а потом Loki с VictoriaLogs. И пока все выглядит так, что VL выигрывает по всем параметрам. Да, все доводы имеют под собой аргументы, но лучше всего проверить на +/- боевом потоке данных.

❗️статья на medium.com
🔥5👍21
Open-source инструменты для визуализации данных

В статье рассмотрены D3.js, Apache Superset, Metabase, Grafana (куда ж без нее), Redash и RAWGraphs.
🔥2👍1
Prometheus Alerting 101: Rules, Recording Rules, and Alertmanager

В статье обсуждаются особенности работы Alertmanager относительно его компонентов.

Другие статьи цикла:

Counters, Gauges, Histograms & Summaries

Instant Queries and Range Queries Explained
🔥11👍5
eBPF вместо всего: почему это новая эра сетей, мониторинга и безопасности?

Раньше модификация Linux требовала пересборки ядра или использования дополнительных модулей. Но теперь есть eBPF — технология, которая позволяет программировать ядро на лету, не жертвуя стабильностью. Читать дальше.
🔥3👍2
Deckhouse Prom++: добавили плюсы к Prometheus и сократили потребление памяти в 7,8 раза

Prometheus для хранения 1 миллиона метрик, собираемых раз в 30 секунд на протяжении 2 часов, требуются 500 МБ на диске и 5 ГБ памяти. Нам показалось, что это слишком много. Вместо этого хотелось получить «бесплатный» мониторинг, который не будет требовать значительных затрат на инфраструктуру.

Больше двух лет Флант работал над этой задачей. Её результатом стал Deckhouse Prom++. Это Open Source-система мониторинга, которой в среднем требуется в 7,8 раза меньше памяти и в 2,2 раза меньше ресурсов CPU, чем Prometheus v2.53. И здесь ещё есть пространство для оптимизации.

В статье они рассказали, как появилась идея Deckhouse Prom++, что уже получилось оптимизировать, какие результаты показывает решение по сравнению с Prometheus и VictoriaMetrics, а также о ближайших планах.

Репыч на Гитхабе
🔥17👍4🤔3👎1
Unlocking Kubernetes Observability with the OpenTelemetry Operator

В статье рассматривается, как OpenTelemetry Operator упрощает сбор телеметрии, обеспечивая бесперебойный мониторинг как самого Kubernetes, так и приложений, работающих на нем. Читать дальше в блоге Dash0.
🔥6
Редтимим мониторинг: рекон Grafana

Статья о том, что можно достать из Grafana, которая одной ногой торчит в интернете. Проверьте, хорошо ли она у вас защищена.
🤔3
Эй, где моя ошибка? Как OpenTelemetry фиксирует ошибки

В зависимости от языка программирования, на котором вы привыкли работать, у вас могут быть определённые представления о том, что такое ошибка, что такое исключение и как его следует обрабатывать. Например, в Go нет исключений — отчасти для того, чтобы отбить у программистов желание причислять слишком много обычных ошибок к «исключительным». С другой стороны, в Java, Python и т. п. поддержка для работы с исключениями встроена.

Когда разные языки расходятся во мнении, что такое ошибки или исключения и как их обрабатывать, возникает вопрос: что использовать, если нужны стандартизированная телеметрия и отчёты об ошибках для микросервисов, написанных на этих языках? OpenTelemetry отвечает на него. Читать дальше на Хабре.
🤔21
AngularJS support will be removed in Grafana 12: what you need to know

А все уже знают, что Grafana пересаживается с Angular на React? В рамках этого перехода поддержка AngularJS была отключена по умолчанию в Grafana 11, но пользователи могли снова включить ее с помощью angular_support_enabled=true. Статья - напоминание.

Что нужно знать и что поменяется в процессе перехода (спойлер: перестанут работать панели на Angular)
🔥4👍2
Мониторинг с Grafana. Best practices

Не очень свежая статья, но тем не менее актуальности не потеряла. Есть базовые рекомендации, о которых, быть может, вы не знали.
🔥7👍1
Настроил легковесный мониторинг для домашнего сервера с интеграцией Telegram для алертов: опыт использования Beszel

Слово автору:

Имея в домашнем парке сервер на базе Proxmox, на котором работает несколько виртуальных машин, а также отдельный мини-ПК под файловое хранилище и пару VDS для личных нужд, давно стал задумываться о необходимости мониторинга состояния устройств, включая сеть, диск, CPU и температуру.

Мне хотелось найти инструмент с базовым мониторингом без сложной настройки и необходимости разбираться в том, какие метрики собирать или как рисовать дашборды. Мне важно было получить готовое решение «из коробки», которое быстро развёртывается и отвечает моим требованиям. А ещё я хотел получать уведомления о возникающих проблемах, чтобы оперативно их решать. Читать дальше на Хабре.
👍9👎21
How to use Prometheus to efficiently detect anomalies at scale

Допустим, вы работаете в дежурной смене и вам посреди ночи приходит уведомление. Вы его открываете, там ссылка на дашборд мониторинга, где вы задержку выполнения транзакций. Но является ли этот всплеск нормальным для этого времени суток? Является ли он вообще актуальным? Следующее, что вы делаете — вы расширяете временное окно и проверяете другие связанные показатели, пытаясь выяснить, что происходит.

Такая вот обычная ситуация. В этой статье в блоге Grafana разбираются какие математические выражения помогут наиболее эффективно и быстро обнаружить аномалии на различных графиках производительности.
👍10🔥2
Покоряем сетевой стек Linux: декапсулируем пакеты с помощью eBPF на скорости 6Mpps+

В этой статье автор рассказывает о том, как они использовали eBPF для перехвата и декапсуляции VXLAN-пакетов прямо в ядре, обеспечив корректный сбор статистики без значительных изменений в архитектуре системы. Разберает, какие требования привели их к этому решению, как его внедряли и каких результатов удалось достичь. Также расскажет, что такое eBPF, как работает технология, как начать с ней работать и на каких этапах сетевого стека Linux можно перехватывать пакеты с ее помощью. Читать дальше.
🔥5👍4
Как сделать централизованное логирование и крепко спать по ночам

Действительно, как? В этой статье коллеги из МТС рассказывают как они работают с сервисом логирования на базе кластеров Open Search с более 400 терабайтами логов клиентов. Читать на Хабре.
🔥13👍5
Forwarded from Zabbix Recipes
Пришло время пригласить вас на вебинар, за который все так дружно проголосовали.

29 апреля в 11 часов утра по московскому времени мы расскажем о нашем подходе к использованию Zabbix, Grafana и ещё немного iTop в качестве инструментов для мониторинга работы ИТ-сервисов и создания древовидной структуры зависимостей компонентов друг от друга. Также на вебинаре накидаем несколько дашбордов в реалтайме.

Приходите — будет интересно!


Регистрация
👍5
Внедряем метрики OpenTelemetry в PHP проект на Yii2

В этой статье о том, как внедрить метрики в формате OpenTelemetry в PHP монолит, построенный на фреймворке Yii2. Читать дальше.
👎4