Мониторим ИТ
8.24K subscribers
253 photos
1 video
2 files
1.59K links
Канал о наблюдаемости (Observability): логи, трейсы, метрики.

Канал в MAX: https://max.ru/id182905929815_biz

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux

@zabbix_ru — Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
О чём логи Kubernetes не расскажут вам во время инцидента

Ритуал обработки алерта:

🔴 Срабатывает алерт.
🔴 Вы открываете логи.
🔴 Они выглядят нормально.
🔴 А продакшен всё ещё «горит».

Логи Kubernetes отлично показывают, что, по мнению приложения, произошло. Но они не помогают понять, почему система ведет себя именно так. Именно в этот промежуток времени тратится большая часть времени впустую во время инцидентов.

В статье рассказывают как подняться на уровень выше логов и посмотреть на то, что предшествовало проблеме. Только опыт.

@monitorim_it
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4
Benchmarking Kubernetes Log Collectors: vlagent, Vector, Fluent Bit, OpenTelemetry Collector, and more

В обойме VictoriaMetrics есть vlagent — высокопроизводительный сборщик логов для VictoriaLogs. Для проверки его производительности и корректности в условиях реальной производственной нагрузки был разработан набор бенчмарков и проведены тесты на 8 популярных сборщиках логов. В этой статье описана методология, результаты по производительности, использованию ресурсов и корректности доставки.

@monitorim_it
🔥10👍31
Демо день Рег.облака — 16 апреля

Главная продуктовая конференция облачного и Bare Metal направления Рег.ру состоится в Центре событий РБК в Москве. Среди тем — актуальные сценарии масштабирования инфраструктуры, перспективы ИИ для бизнеса, облака 152-ФЗ, Terraform, и вообще — какие эффективные способы снизить издержки на IT существуют в 2026 году. Среди гостей — эксперты из X5 Tech, банка Синара, СОГАЗа и РБК.

Участие бесплатное, но надо зарегистрироваться, количество мест ограничено. Регистрация и другие подробности — вот здесь: https://demoday.reg.cloud/
🔥6👍2👎1
Эволюция логирования в Lenta tech: грабли, миграции и неочевидный финал с Victoria Logs

В статье рассказано о том, как за последние четыре года менялась система логирования в Ленте, какие решения они принимали по ходу роста инфраструктуры и к какому результату в итоге пришли. Спойлер: Loki -> Clickhouse -> VictoriaLogs.

@monitorim_it
👍11🔥8🤔2👎1
Как в Авито построили систему мониторинга BGP

В этой статье рассказано, зачем в Авито централизованно собирают и анализируют маршрутную информацию с сетевых устройств, причём тут протокол BMP и как устроена их система мониторинга. В конце статьи лаба на docker-compose, которую вы можете запустить у себя и посмотреть на систему в действии.

Статья будет полезна в первую очередь сетевым инженерам, командам SRE и мониторинга, которые отвечают за доступность и качество сервиса.

Репыч системы на Гитхаб

@monitorim_it
👍9🔥7
Логи: всё, что нужно знать тестировщику

Логи — это записи о том, как работает любая система: будь то сайт, мобильное приложение или микросервис. Логирование происходит автоматически, информация сохраняется в файлах или специальных сервисах. Пользователь этих записей не видит, но для тестировщика логи особенно важны — ведь по ним можно определить, что происходило в системе при сбое, даже если на фронтенде отображается только общее сообщение об ошибке.


Обзорная статье об инструментах логирования
🔥32
Native OpenTelemetry inside Alloy: Now you can get the best of both worlds

Начиная с версии 1.14.0, Alloy включает экспериментальный механизм OpenTelemetry, который позволяет настраивать Alloy с помощью стандартного YAML-файла OTEL-коллектора. Эта функция необязательна и полностью обратно совместима, поэтому существующая конфигурация Alloy не изменится, если вы не включите поддержку OpenTelemetry. Подробности в блоге Grafana.

А кто-то из читателей канала пользуется Alloy? Расскажите о своем опыте.

@monitorim_it
👍6🔥6
Неочевидные оптимизации Iceberg таблиц

Iceberg становится де-факто отраслевым стандартом при построении lakehouse в России. Для сравнения, на последней конференции smart-data, Iceberg по частоте упоминания уступает только Spark. Это значит, что уверенное владение механикой работы Iceberg становится обязательным навыком для инженеров данных и платформенных команд.


Вы спросите: а при чем тут мониторинг и Iceberg? А при том, что в таких системах как Apache Iceberg или Delta Lake можно эффективно хранить Observability-данные. При этом, конечно, правильно все настроив. В статье на Хабре вы найдете подробности.

Есть еще одна статья от Clickhouse для погружения в тему. Здесь вы узнаете о премуществах использования ClickStack (observability-платформы) совместно с Clickhouse и, например, Iceberg.

@monitorim_it
👍5🔥5
Создание платформы наблюдаемости с помощью SigNoz, ClickHouse и OpenTelemetry

В этой статье вы узнаете об использовании стека наблюдаемости без Prometheus. Для промежуточного хранения данных используется Kafka. Весьма интересный подход.

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍31
linnix

Утилита top показывает 80% загрузки CPU, Prometheus показывает высокую задержку, но какой именно pod тормозит работу вашего платежного сервиса?

Linnix использует eBPF + PSI (Pressure Stall Information) для решения этой проблемы. PSI измеряет фактическое время простоя — не использование ресурсов, а конкуренцию за ресурсы. Pod, использующий 40% CPU при 60% PSI, работает хуже, чем под, использующий 100% CPU при 5% PSI.

Что обнаруживает Linnix:

🚀 Шумные соседи: какой контейнер морит голодом другие?

🚀 Форк-штормы: неконтролируемое создание процессов перед сбоем узла.

🚀 Причина задержки: «Pod X вызвал задержку в 300 мс у pod Y».

🚀 Насыщение PSI: нагрузка на CPU/ввод-вывод/память, которые не отображаются в top.

Репыч на Гитхаб

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍21
Собираем NetFlow-статистику через eBPF: от физических серверов до K8s

Когда речь идёт о расследовании инцидентов, связанных с безопасностью своих ресурсов, «приблизительной» статистики недостаточно — нужны подробности. Однако, встроенные в сетевое оборудование решения (вроде sFlow/NetFlow) с этим, как правило, не справляются:

🚀 попытки передать полную телеметрию слишком сильно нагружают сетевое «железо»;

🚀 семплирование sFlow не позволяет получить наблюдаемость на уровне каждой сессии;

🚀 экспорт специфических полей данных часто невозможен в принципе.

Поэтому мы реализовали собственную систему сбора данных. Она позволяет «видеть» не только трафик на границе сети, но и весь жизненный цикл каждой сессии.

За основу взяли eBPF/XDP и NetFlow. Почему именно их? Потому что у нас на BPF построена целая платформа для обработки трафика со своими нюансами и особенностями. NetFlow — это лишь один её элемент.

ИТ-инфраструктуру нашей компании можно условно разделить на 3 типа: физические серверы, виртуализация и Kubernetes-кластеры. У каждого из этих типов есть свои особенности сбора статистики, о которых рассказано в статье.


Читать дальше на Хабре

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍41
OpenTelemetry со Spring Boot

В экосистеме Spring большая часть телеметрии была завязана на Micrometer Project (Был ещё spring-cloud-sleuth если кто помнит). Но полноценного all-in-one решения для того, чтобы Spring Boot приложение просто начало экспортировать телеметрию по OTLP не было. До Spring Boot 4.

На данный момент для интеграции OTel в Spring Boot приложения есть 3 пути: Java Agent (минимум кода, но чувствителен к версиям и может конфликтовать с другими агентами), сторонний OTel starter (стартер от самих OpenTelemetry, но тянет alpha-зависимости) и новый spring-boot-starter-opentelemetry, доступный в Spring Boot 4.0.

Подробнее в статье
.

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Media is too big
VIEW IN TELEGRAM
Когда мониторинг молчит, а сервис уже падает

«404 секунды» — ИТ-шоу для тех, у кого нет времени на лишнее: ровно 404 секунды про инженерные темы, которые реально бьют по продакшену. DevOps, SRE, техлиды — здесь не новости, а выжимка того, что влияет на инфраструктуру прямо сейчас.

Новый выпуск — про observability. Тема, с которой многие сталкивались на практике. Когда алерты перестают восприниматься как сигнал — классический alert fatigue: все орет, ты фильтруешь, а в итоге важное легко пропустить. В выпуске как раз про это: почему привычный мониторинг не справляется с микросервисами и Kubernetes, как начать понимать причины, а не только чинить симптомы, и что делать с alert fatigue, когда алертов становится слишком много.

Отдельно ведущий говорит про AI в мониторинге и инцидентах, как автоматизация постепенно меняет подход к наблюдаемости, и приводит примеры из практики, например, как такие подходы реализуются через платформы вроде Monium, которые используют сервисы и продукты Яндекса.


Смотреть и слушать выпуск тут: YouTube, VK Видео и Яндекс Музыка. И подписывайтесь, чтобы быть в теме без лишнего шума.
🔥9👍4👎3
Observability Lessons From OpenAI

В этой статье в блоге VictoriaMetrics рассказывают (и делятся конфигурацией docker-compose) как настроить локальную наблюдаемость локального ИИ-агента при помощи VictoriaMetrics, VictoriaLogs, VictoriaTraces и OTel-коллектора.

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4
Собираем 1 000 000 метрик в секунду с сетевых устройств

«Бди!» — сказал Козьма Прутков. И действительно, как инженер я считаю важным бдительно следить за показателями сетевых устройств, да и не только сетевых. На связи Александр Балезин из отдела сетевой разработки Yandex Infrastructure. Сегодня расскажу о нашем новом коллекторе метрик с сетевых устройств, о том как мы к нему пришли и о системах вокруг сетевых метрик.

Поделюсь опытом модульного подхода, решениями для поддержки множества брендов устройств и тем, как обеспечить надёжный мониторинг даже в самом сложном сетевом зоопарке.


Статья Яндекс Клауд на Хабре

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥41👎1
Более трети российского бизнеса уже использует ИИ в основной деятельности

Как компании из разных отраслей превращают искусственный интеллект в рабочий инструмент? Об этом расскажут эксперты Selectel, провайдера ИИ-инфраструктуры, и других топовых ИТ-компаний на конференции МЛечный путь.

О чем еще расскажут:

🔺Как безопасно внедрить генеративные модели
🔺Как посчитать эффект от внедрения ИИ
🔺Как выбрать железо для инференса

22 апреля в Москве МЛечный путь соберет вместе представителей индустрии, которые применяют или хотят начать применять ИИ для решения бизнес-задач. Присоединяйтесь, регистрация бесплатная: https://slc.tl/n00nn

Реклама. АО "Селектел". erid:2W5zFJ9Cc6V
🔥3👎2👍1
Announcing Role Based Access Control in ClickStack

ClickStack становится все более зрелой платформой и вот появилась ролевая модель. До внедрения RBAC все пользователи ClickStack принадлежали к одной группе и имели одинаковые разрешения в приложении, без возможности дифференцировать доступ между пользователями или командами в рамках одного экземпляра.

Для обеспечения изоляции командам приходилось использовать отдельные экземпляры HyperDX. Каждый экземпляр настраивался с собственными учетными данными для подключения и источниками данных, что сегментировало доступ на уровне среды, а не внутри самого продукта. В общем, были костыли-костыли.

Сейчас для каждого типа ресурсов ролям может быть назначен один из трех уровней доступа: отсутствие доступа, чтение или управление.

Подробнее в блоге ClickHouse

📱 Telegram | 📲 MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
⌨️ Станьте экспертом по сетям ЦОД: проектируйте инфраструктуру для ИИ и облаков

Курс «Дизайн сетей ЦОД» в OTUS научит проектировать надёжные сетевые инфраструктуры для высоконагруженных систем — облаков и ИИ.

Вы освоите:
- современные архитектуры сетей;
- построение IP‑фабрик;
- работу протокола BGP;
- архитектуру underlay и overlay сетей;
- технологии EVPN и VXLAN.

Что получите:
✔️ востребованные навыки для IT‑компаний и облачных провайдеров;
✔️ шанс перейти на позицию старшего сетевого инженера или архитектора ЦОД;
✔️ портфолио из реальных проектов.

Формат: живые занятия с обратной связью, разбор реальных архитектур и лучших практик от экспертов.

Старт курса: до 6 апреля.
Дедлайн со скидкой: до 4 апреля.
+10 % к скидкам на сайте по промокоду birthday — в честь дня рождения OTUS 🎉!

👉 Записывайтесь сейчас и пройдите короткое тестирование (5–7 минут): https://tglink.io/6a3eb56d57aff7?erid=2W5zFGF1z4H

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🔥2👍1