Мониторим ИТ
8.1K subscribers
217 photos
2 files
1.55K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Нельзя отладить систему, обвиняя человека

Представьте, что вы на кухне с другом. Вы вместе готовите, болтаете, режете, помешиваете. В какой-то момент ваш друг порезал палец, когда резал лук. Первое, что вы делаете, очевидно: смягчаете удар. Вы берете бумажное полотенце, помогаете ему промыть рану и находите пластырь.

А теперь представьте, что сразу после того, как вы наклеили пластырь, вы говорите что-то вроде : «Ну, будьте немного осторожнее с этим ножом».

В тот самый момент вы разрываете важную связь, решив, что «причина» в том, что они были недостаточно осторожны. В результате вы можете никогда не узнать, что на лезвии ножа есть небольшая выемка, из-за которой он иногда соскальзывает, или что ваш друг был рассеян из-за сложного разговора, или что вы оба спешили, потому что сковорода уже была горячей, и вы хотели положить лук, прежде чем он подгорит.

Возможно, вы осознаете некоторые из этих вещей лишь позже, когда они произойдут с вами.

«Просто будьте осторожнее» — это звучит как ответ, но он жертвует простой историей ради возможности понять, что происходит на самом деле.


Интересная статья о том, как создавать blameless-культуру в вашей организации (и какие правильные вопросы нужно себе задать). Анализ инцидентов — это один из самых честных способов увидеть, как функционирует ваша организация изнутри.

@monitorim_it
👍7🔥6
Reducing Log Volume with the OpenTelemetry Log Deduplication Processor

Если просто собирать все логи и никаких действий над ними не предпринимать, то когда-нибудь придет момент необходимости увеличения массивов хранения данных.

В статье разобран принцип работы процессора дедупликации журналов OpenTelemetry Collector (logdedupprocessor), который предлагает элегантное решение этой проблемы. Процессор вычисляет хеш этих полей и отслеживает их появление в течение настраиваемого интервала. По истечении заданного интервала процессор выдает одну запись в журнал с тремя дополнительными атрибутами: log_count (количество дубликатов), first_observed_timestamp (время появления первого события) и last_observed_timestamp (время появления последнего события).

@monitorim_it
🔥9👍5
🗣Внимание, конкурс!

Разыгрываем 7 ваучеров на обучение и сертификацию со скидкой 100% от The Linux Foundation, а также 7 доступов к видеокурсу Kubernetes: База от Slurm.

🟣 Каталог электронных курсов и сертификации

Ваучеры можно применить к любому:

— онлайн-курсу
— сертификационному экзамену (CKA, CKS, CKAD и другие — в комплекте!)
— или пакету (курс + сертификация)

🟣 Курс Kubernetes: База от Slurm.

Условия розыгрыша просты: 🔵 Подпишитесь на KazDevOps и жми кнопку "Учавствую!" под оригинальным постом в канале KazDevOps.

🚩 29 января подведем итоги и выберем 7 победителей. Каждый победитель получит ваучер + доступ к курсу от Slurm. Активировать ваучеры нужно до 07.01.2027. После этого у вас будет 1 год и 2 попытки, чтобы завершить обучение и сдать экзамен.

Go-go-go, и успехов!

👉 Участвовать

@DevOpsKaz 😛
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Observability-as-Code в Spring Boot: Контракты и тесты для метрик, логов и трейсов

Observability-as-Code - это подход, при котором базовые элементы наблюдаемости (метрики, логи, трассировки) описываются и проверяются так же строго, как и код самого приложения. Эта информация хранится в VCS и к ней выдвигаются такие же требования, как “остальному коду”. Инженеры явно описывают "контракт" наблюдаемости (какие метрики и логи должна выдавать система, с какими свойствами), снабжают этот контракт автоматическими тестами и включают проверки в процесс CI/CD.


В этой статье подробно разбирается, почему такой подход эффективен, и как его реализовать в Spring Boot с использованием Micrometer, OpenTelemetry и инструментов вроде ArchUnit.

@monitorim_it
🔥9👍2
Getting Started with Host Metrics Using OpenTelemetry

В статье приведены примеры конфигов OTel коллектора для сбора метрик хоста и кубера. У-унификация.

@monitorim_it
🔥9👍2👎1
Grafana dashboards: tips for optimizing query performance

Даже при наличии мощного бэкэнда данных для визуализации производительность может снижаться, если запросы не оптимизированы или системные настройки не настроены корректно. В этой статье в блоге Grafana собраны рекомендации по оптимальному дашбордостроению.

@monitorim_it
🔥13👍81
phoenix

Phoenix — это платформа для мониторинга и анализа данных с использованием искусственного интеллекта и с открытым исходным кодом, предназначенная для оценки производительности и устранения неполадок LLM-приложений. Phoenix работает практически где угодно, включая локальный компьютер, блокнот Jupyter, контейнеризированную среду или облако.

Репыч на Гитхаб

@monitorim_it
🔥6👍2🤔2
Building a synthetic monitoring solution for Jaeger with Grafana k6

Синтетический мониторинг меняет подход — вместо пассивного сбора метрик из реального, потенциально скомпрометированного трафика, синтетический мониторинг позволяет имитировать путь пользователя, чтобы получить однозначные данные о качестве сервиса. Он помогает непрерывно отслеживать продакшен-среду извне, используя проверки, которые запускаются с частыми интервалами, например, каждые пять минут, с использованием виртуального пользователя.

Для решения этой задачи мы обратились к Grafana k6 , инструменту тестирования производительности с открытым исходным кодом, который помогает проверять производительность системы при экстремальных нагрузках.


В этой статье рассматривается использование Grafana k6 для сценариев синтетического мониторинга.

@monitorim_it
🔥6👍2
Vibe coding tools observability with VictoriaMetrics Stack and OpenTelemetry

Такие инструменты, как Claude Code, OpenAI Codex, Gemini CLI, Qwen Code и OpenCode, реализовали то, что многие называют «вайб-кодингом». Хорошая новость в том, что все основные инструменты для программирования на Vibe теперь поддерживают OpenTelemetry. В сочетании с открытым исходным кодом VictoriaMetrics Observability Stack вы можете создать мощное и экономичное решение для мониторинга, которое обеспечит глубокое понимание ваших рабочих процессов разработки с использованием ИИ.


Читать дальше в блоге VictoriaMetrics

@monitorim_it
👍6🔥41
kubernetes-autoscaling-mixin

В этом репозитории собран набор дашбордов Grafana и оповещений Prometheus для автомасштабирования Kubernetes с использованием метрик из Kube-state-metrics, Karpenter и Cluster-autoscaler.

Это расширение для Kubernetes-mixin , добавляющее мониторинг компонентов, которые по умолчанию не развертываются в кластере Kubernetes (VPA, Karpenter, Cluster-Autoscaler).

Репыч на Гитхаб

@monitorim_it
🔥7👍51
Приглашаем вас на совместный вебинар Yandex Cloud и Галс Софтвэр, посвящённый возможностям и практическим аспектам работы с сервисом Managed OpenSearch.

📅 Дата: 2 февраля 2026 года
🕒 Формат: онлайн
🎙 Участие: бесплатное, по предварительной регистрации

👉 Зарегистрируйтесь на вебинар заранее, чтобы получить ссылку на трансляцию и материалы участников.

⚡️Спикеры вебинара:

🗣 Владислав Таболин, руководитель группы разработки Yandex Cloud, расскажет:

🚀 об архитектуре и особенностях сервиса Managed OpenSearch;
🚀 ключевых преимуществах управляемого сервиса;
🚀 сценариях использования OpenSearch в корпоративных и высоконагруженных системах;
🚀 вопросах надёжности, масштабирования и эксплуатации.

🗣Антон Касимов, основатель компании Галс Софтвэр, поделится:

🚀 методами оптимизации хранения данных в OpenSearch;
🚀 подходами к снижению затрат на хранение;
🚀 подробностями хранения данных в OpenSearch;
🚀 типичными ошибками и best practices из реальных проектов.

Кому будет полезен вебинар:

🚀 инженерам и архитекторам;
🚀 DevOps и SRE-специалистам;
🚀 руководителям ИТ-подразделений;
🚀 всем, кто использует или планирует использовать OpenSearch в продуктивных системах.

В завершение вебинара вас ждёт сессия вопросов и ответов, где спикеры разберут реальные кейсы и практические ситуации.

👉 Зарегистрируйтесь на вебинар, чтобы:

🚀 получить доступ к трансляции;
🚀 задать вопросы экспертам Yandex Cloud и Галс Софтвэр;
🚀 получить материалы и запись после мероприятия.

❗️ Будем рады видеть вас на вебинаре!
🔥51👍1👎1
Туториал по Wireshark для начинающих

Среди множества инструментов для обеспечения сетевой безопасности Wireshark выделяется своей способностью захватывать и отображать пакеты в реальном времени, что особенно полезно для диагностики и анализа сети.

Wireshark прост в использовании и является отличным вариантом для новичков, но при этом достаточно мощный для профессионалов, которым нужны детализированные данные о сетевом трафике.


В этой статье объясняется, как установить Wireshark и использовать его для выявления проблем с подключением, обнаружения подозрительной активности и анализа производительности сети.

@monitorim_it
👍8🔥6👎2
React 19 is coming to Grafana: what plugin developers need to know

Уже в апреле планируется релиз Grafana 13 с React 19 на борту. В этой статье в блоге Grafana разобрано как обновление будет влиять на плагины и как проверять совместимость используемого вам плагина с новой версией Grafana.
🔥9👍51
Zabbix: обучение и техподдержка

Возьмем на поддержку ваш Zabbix и/или обучим на официальных курсах Zabbix сертифицированный специалист (ZCS) / профессионал (ZCP) в феврале-марте

Gals Software — команда сертифицированных экспертов с многолетним опытом работы с Zabbix. Наши специалисты освобождают руки администраторов систем и дают им уверенность в надежности мониторинга.

💼Техподдержка 1,2 и 3 линии (описание на сайте):

🧭 проводим аудит и оптимизацию архитектуры (сервер, прокси, БД)

🧩 настраиваем шаблоны: стандартные и кастомные под ваш стек (Linux/Windows, СУБД, сеть, бизнес-метрики)

🔕 снижаем событийный шум: нормализация триггеров, пороги, зависимые элементы

🔗 интегрируем Zabbix с Telegram, почтой, ITSM/CMDB, веб-хуками и внешними API

📈 строим понятные дашборды для бизнеса и техподдержки (Grafana по желанию)

⬆️ безопасно обновляем версии, мигрируем и масштабируем

🧑‍🏫 обучаем вашу команду и делимся практиками

🎓 Тренинги от создателей Zabbix на русском с получением официального сертификата:

📅 Zabbix сертифицированный специалист 7.0 (ZCS 7.0) 9-13 февраля 2026

📅 Zabbix сертифицированный профессионал 7.0 (ZCP 7.0) 11-13 марта 2026

📅 Zabbix сертифицированный эксперт 7.0 (ZCE 7.0) 15-19 июня 2026

❗️Полное расписание тренингов.

Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с Zabbix сразу после прохождения тренинга.

Подробную информацию о наших услугах вы можете запросить, написав @galssoftware или через почту hello@gals.software.

Реклама. ООО Галс Софтвэр, ИНН 5047195298, erid 2VtzquvF3oh
🔥5👍4👎2🤔1
Мониторинг и управление качеством мобильного интернета на микротике

Цели и задачи
Работающий интернет в частный дом в Московской области. Проводных аналогов нет.

Что имеем на руках
Роутер Mikrotik hap ac3 LTE. Но можно любой микротик + LTE модем - я настраивал сначала все именно так, а потом переносил на микротик LTE. Всю сложную логику будем реализовывать на микротике.


Статья посвящена изучению возможностей роутеров микротик в деле управления качеством мобильного интернета с плохим качеством LTE сигнала, т.е. в удаленных уголках. И да, качество можно поднять антенной, но оно все равно не будет таким как по проводному интернету.

Дополнительно, рассказано как пулять сообщения в телегу из микротика, парсить логи микротика, а также отправлять статистику работы в гугл таблицу для накопления и последующего удаленного анализа.

@monitorim_it
🔥8👍5
Business intelligence plugins for Grafana: what's next

Вы могли слышать про плагины для Grafana от Volkov Labs. В прошлом году их купили и теперь Grafana Labs взяла на себя поддержку и разработку их набора плагинов для бизнес-аналитики.

В этой статье в блоге Grafana рассказывают как они дальше будут развивать эти плагины и делятся подробностями о наиболее известных плагинах.

@monitorim_it
🔥11👍3👎21
Мониторим ИТ
Приглашаем вас на совместный вебинар Yandex Cloud и Галс Софтвэр, посвящённый возможностям и практическим аспектам работы с сервисом Managed OpenSearch. 📅 Дата: 2 февраля 2026 года 🕒 Формат: онлайн 🎙 Участие: бесплатное, по предварительной регистрации 👉
Вебинар по OpenSearch уже сегодня в 10 часов по московскому времени

Уже меньше, чем через час будет наш совместный вебинар с Яндекс Облаком, где мы поговорим о возможностях управляемого сервиса OpenSearch и расскажем как снизить затраты на хранение данных. Приходите!

Регистрация
🔥8👍1👎1
Точка синхронизации технологий и тех, кто их использует

T-Sync Conf — офлайн-конференция от Группы «Т-Технологии» для опытных инженеров. 7 февраля в Москве на площадке TAU соберутся платформенные, security и дата-инженеры, аналитики, DevOps, SRE, CI/CD, AI-, ML-, R&D- и DX -специалисты.

Это новый формат инженерного диалога:
— Контуры — тематические зоны, каждая из которых раскрывает отдельный слой инженерной реальности: AI, Data, R&D, Security, Platform и другие направления.
— Вместо классических докладов — круглые столы, стенды, хакатон, воркшопы и мастер-классы.
— Инженерные решения изнутри — возможность посмотреть, как устроены технологии в Т-Банке и других компаниях, и пообщаться напрямую с теми, кто их создает.

А еще много практики, интересных знакомств и живых систем.

Успейте подать заявку
🔥5👍3👎2
Tempo 2.10 release: new TraceQL features, LLM-optimized API responses, vParquet5, and more

Вышла версия Tempo 2.10, в которой реализованы улучшения относительно TraceQL, усовершенствовано управление кардинальностью метрик, поддержка vParquet5 и многое другое.

🚀 Нововведения в TraceQL

- фильтрация по количеству дочерних спанов { span:childCount > 1000 }. Поддерживается только в vParquet5.

- запрос спанов без конкретных атрибутов.

🚀 Улучшена функциональность MCP-сервера

- упрощенное JSON-представление трассировки, которое облегчает обработку и анализ данных трассировки.

🚀 Улучшения в генераторе метрик

- добавлены функции, позволяющие изменять размеры и настраивать метрики диапазонов и графики сервисов, сохраняя при этом возможности установки максимального количества активных серий.

🚀 Ограничение количества метрических рядов

- добавлен режим ограничения на основе сущностей, чтобы предотвратить бесконтрольное отбрасывания избыточных серий, ограничивая количество сущностей, а не количество серий. В этом случае сущность представляет собой единый набор меток для нескольких метрик, исключая внешние метки. Таким образом, ограничивается количество уникальных комбинаций меток.

🚀 Обновление vParquet

Поддержка vParquet4 сохранилась умолчанию используется, а vParquet5 появилась в качестве опции. Т.к. vParquet5 будет использоваться по умолчанию в Tempo 3.0, вендор рекомендует обновиться до этой версии.

Более подробно в блоге Grafana

@monitorim_it
🔥5👍4