Мониторим ИТ
8.08K subscribers
201 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Подписчик попросил разместить ролик с рассказом о предпосылках и внедрении APM-мониторинга Appdynamics в банке Санкт-Петербург (БСПБ). Рассказывает Алексей Тутуков — начальник управления мониторинга и реагирования БСПБ.

Забавно, что ребята взяли да и вставили в презентацию мою картинку с Мо шестилетней давности. Жаль, что даже лайков не отсыпали. А та картинка была в статье на Хабре о принципах мониторинга бизнес-приложений.
NetXMS — как Solarwinds для желающих получить кое-что бесплатно. Это бесплатная система мониторинга с автоматическим дискаверингом L2 и L3, собирает метрики ОС, Oracle, MySQL, PostgreSQL, MongoDB, DB2, Tuxedo и другие. Система вроде как развивается, последний релиз был 16 июня 2020 года.

Вот тут прошлогодняя статья на Хабре.
SRE: Анализ производительности. Способ настройки с использованием простого вебсервера на Go

Анализ производительности можно применять для проверки узких мест в программе, применяя научный подход при проверке экспериментов по настройке. Эта статья определяет общий подход к анализу производительности и настройке с использованием в качестве примера вебсервера на Go. Читать дальше на Хабре
Интересно, Ozon как-то отслеживает такие проблемы на своём сайте? То есть ты готов уже оплатить, но что-то пошло не так. Главное, не пишут что именно. Перезагрузка страницы, переход в режим инкогнито или использование другого браузера не помогает. Не знаю есть ли среди подписчиков кто-то из Ozon, но если вы расскажете как у вас отрабатываются такие проблемы на сайте, думаю всем будет интересно. Пишите мне в личку.
Fluentd — Splitting Logs

В большинстве инсталляций Kubernetes у нас есть приложения с логированием в stdout различных типов журналов. Хорошим примером являются журналы приложений и журналы контроля доступа, оба содержат очень важную информацию, но мы должны анализировать их по-разному, чтобы сделать это, мы используем возможности fluentd и некоторых его плагинов.

В этом практическом посте мы объясним, как разделить эти журналы на параллельные потоки, чтобы вы могли в дальнейшем их обрабатывать.
Redesigning Observability Logging

Статья — попытка переосмыслить подход к журналированию. Вышла на Медиуме 5 августа.
Отправка Nginx json логов с помощью Vector в Clickhouse и Elasticsearch

Будучи написанным на языке Rust, он отличается высокой производительностью и низким потреблением оперативной памяти по сравнению с аналогами. Кроме того, большое внимание уделено функциям, связанным с корректностью, в частности, возможностям сохранения неотправленных событий в буфер на диске и ротации файлов. Читать дальше…
Systems Monitoring with Prometheus and Grafana (статья опубликована в блоге FlightAware — сервиса по отслеживанию полетов в реальном времени)

Hyperfeed — это основная система отслеживания полетов FlightAware. Её функционал используется в самых важных услугах компании: страницах с рейсами на веб-сайте, Firehose, FlightXML и предупреждениях о задержках рейсов. Так что если Hyperfeed перестает работать, то же самое происходит и с FlightAware. Читать дальше…
Forwarded from /usr/bin
The basics of deploying Logstash pipelines to Kubernetes

Когда я начинаю изучать что-то новое, я ставлю перед собой несколько небольших достижимых целей. Одна из задач, которые я написал, состояла в том, чтобы иметь полностью функциональный, работающий конвейер Logstash, работающий в Kubernetes, получая данные откуда-то, выполнять с ними какие-то действия, а затем отправлять их в ElasticSearch. Читать дальше…
Друзья нашего канала, команда MONQ Digital lab ищет в свой штат Technical partner manager.

MONQ — это платформа умного управления процессами на основе анализа больших данных и ИИ.

Нужен человек, который сумеет погрузиться в сложный мир продукта и выстроить эффективную техническую коммуникацию с российскими и зарубежными партнерами и заказчиками.

Работа фулл тайм, удалёнка. Подробности вакансии на Хабр Карьере.
Loki 1.6.0 released: Metric query performance up to 10x faster, push logs from any client to Promtail, query language and LogCLI enhancements, and more!

С проектом Loki дела идут полным ходом! И снова мы слишком долго ждали между релизами, появилось так много нового, что я не смогу перечислить все изменения. Но это не остановит меня от попыток, так что перейдем к делу.

Я собираюсь обсудить компоненты Loki и упомянуть изменения в виде абзацев. Посмотрим, что получится. Читать дальше…
Scaling Prometheus: How we’re pushing Cortex blocks storage to its limit and beyond

В Grafana Labs мы используем блочное хранилище хранилище в относительно большом масштабе, при этом некоторые из наших клиентов удаленно записывают от 10 до 30 миллионов активных серий (~ 1 млн выборок в секунду) и до 200 ГБ блоков данных от каждого клиента каждый день сохраняется в долговременном хранилище. Читать дальше…
New in Grafana 7.1: Gain new data insights with InfluxDB and Flux query support

Наблюдаемость между стеками и источниками данных упрощает идентификацию паттернов и добавление контекста к данным временных рядов из других источников, таких как реляционные базы данных или логи. Этот контекст является ключом к правильной интерпретации шаблонов данных и получения информации, которая затем может помочь улучшить процессы, повысить эффективность, выявить аномалии и помочь определить основные причины сбоев в обслуживании. Читать дальше…
🗓 19 августа в 10:00 Axoft и Gals Software приглашают принять участие в вебинаре по универсальной системе мониторинга Solarwinds.

Если у вас разнородная инфраструктура, которая создавалась на протяжении длительного периода времени, Solarwinds сможет закрыть вопрос мониторинга в максимально возможном объёме. Поддерживается мониторинг сетевых и серверных устройств различных вендоров, систем виртуализации, баз данных, анализ трафика и логов. Есть модули для управления конфигурациями серверов и сетевых устройств, управления адресным пространством и другие.

На вебинаре вы узнаете:

⚡️ как выявить и предотвратить сбои в работе оборудования (сервера, банкоматы, кассовые аппараты, платежные терминалы и другое);

⚡️ если сбой все-таки произошел, как быстро найти причину и устранить ее прямо из панели задач;

⚡️ как организовать удаленную работу сотрудников;

⚡️ как организовать мониторинг приложений и сайтов.

Во второй части вебинара будет доклад о реальных кейсах внедрения системы Solarwinds в крупном российском банке и компаниях нефтегазового сектора.

Регистрация на вебинар
Envoy 1.15 introduces a new Postgres extension with monitoring support

Новый плагин Envoy для PostgreSQL.
Мониторинг вашей инфраструктуры с помощью Grafana, InfluxDB и CollectD

Как это устроено в одной компании.
Cameron McCloskey рассказывает в блоге Grafana как устроен его дашборд для домашнего использования. Особенно интересно в части отображения видеопотока.
Grafana уже приглашает на ObservabilityCON, который состоится 26-29 октября. Обещают рассказать о новинках в своих решениях и юзкейсах Grafana & Prometheus & Loki & Cortex.