Мониторим ИТ

Эволюция логирования в Lenta tech: грабли, миграции и неочевидный финал с Victoria Logs

В статье рассказано о том, как за последние четыре года менялась система логирования в Ленте, какие решения они принимали по ходу роста инфраструктуры и к какому результату в итоге пришли. Спойлер: Loki -> Clickhouse -> VictoriaLogs.

@monitorim_it

👍11🔥8🤔2👎1

2.15K views09:59

Мониторим ИТ

Как в Авито построили систему мониторинга BGP

В этой статье рассказано, зачем в Авито централизованно собирают и анализируют маршрутную информацию с сетевых устройств, причём тут протокол BMP и как устроена их система мониторинга. В конце статьи лаба на docker-compose, которую вы можете запустить у себя и посмотреть на систему в действии.

Статья будет полезна в первую очередь сетевым инженерам, командам SRE и мониторинга, которые отвечают за доступность и качество сервиса.

Репыч системы на Гитхаб

@monitorim_it

👍9🔥7

2.38K views15:09

Мониторим ИТ

Логи: всё, что нужно знать тестировщику

Логи — это записи о том, как работает любая система: будь то сайт, мобильное приложение или микросервис. Логирование происходит автоматически, информация сохраняется в файлах или специальных сервисах. Пользователь этих записей не видит, но для тестировщика логи особенно важны — ведь по ним можно определить, что происходило в системе при сбое, даже если на фронтенде отображается только общее сообщение об ошибке.

Обзорная статье об инструментах логирования

🔥3❤2

2.08K views06:01

Мониторим ИТ

Native OpenTelemetry inside Alloy: Now you can get the best of both worlds

Начиная с версии 1.14.0, Alloy включает экспериментальный механизм OpenTelemetry, который позволяет настраивать Alloy с помощью стандартного YAML-файла OTEL-коллектора. Эта функция необязательна и полностью обратно совместима, поэтому существующая конфигурация Alloy не изменится, если вы не включите поддержку OpenTelemetry. Подробности в блоге Grafana.

А кто-то из читателей канала пользуется Alloy? Расскажите о своем опыте.

@monitorim_it

👍6🔥6

2.11K viewsedited 13:59

Мониторим ИТ

Неочевидные оптимизации Iceberg таблиц

Iceberg становится де-факто отраслевым стандартом при построении lakehouse в России. Для сравнения, на последней конференции smart-data, Iceberg по частоте упоминания уступает только Spark. Это значит, что уверенное владение механикой работы Iceberg становится обязательным навыком для инженеров данных и платформенных команд.

Вы спросите: а при чем тут мониторинг и Iceberg? А при том, что в таких системах как Apache Iceberg или Delta Lake можно эффективно хранить Observability-данные. При этом, конечно, правильно все настроив. В статье на Хабре вы найдете подробности.

Есть еще одна статья от Clickhouse для погружения в тему. Здесь вы узнаете о премуществах использования ClickStack (observability-платформы) совместно с Clickhouse и, например, Iceberg.

@monitorim_it

👍5🔥5

2.17K views08:00

Мониторим ИТ

Создание платформы наблюдаемости с помощью SigNoz, ClickHouse и OpenTelemetry

В этой статье вы узнаете об использовании стека наблюдаемости без Prometheus. Для промежуточного хранения данных используется Kafka. Весьма интересный подход.

📱

Telegram | 📲 MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍3❤1

2.16K views12:03

Мониторим ИТ

linnix

Утилита top показывает 80% загрузки CPU, Prometheus показывает высокую задержку, но какой именно pod тормозит работу вашего платежного сервиса?

Linnix использует eBPF + PSI (Pressure Stall Information) для решения этой проблемы. PSI измеряет фактическое время простоя — не использование ресурсов, а конкуренцию за ресурсы. Pod, использующий 40% CPU при 60% PSI, работает хуже, чем под, использующий 100% CPU при 5% PSI.

Что обнаруживает Linnix:

🚀 Шумные соседи: какой контейнер морит голодом другие?

🚀 Форк-штормы: неконтролируемое создание процессов перед сбоем узла.

🚀 Причина задержки: «Pod X вызвал задержку в 300 мс у pod Y».

🚀 Насыщение PSI: нагрузка на CPU/ввод-вывод/память, которые не отображаются в top.

Репыч на Гитхаб

📱

Telegram | 📲 MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍2❤1

2.22K views06:04

Мониторим ИТ

Собираем NetFlow-статистику через eBPF: от физических серверов до K8s

Когда речь идёт о расследовании инцидентов, связанных с безопасностью своих ресурсов, «приблизительной» статистики недостаточно — нужны подробности. Однако, встроенные в сетевое оборудование решения (вроде sFlow/NetFlow) с этим, как правило, не справляются:

🚀 попытки передать полную телеметрию слишком сильно нагружают сетевое «железо»;

🚀 семплирование sFlow не позволяет получить наблюдаемость на уровне каждой сессии;

🚀 экспорт специфических полей данных часто невозможен в принципе.

Поэтому мы реализовали собственную систему сбора данных. Она позволяет «видеть» не только трафик на границе сети, но и весь жизненный цикл каждой сессии.

За основу взяли eBPF/XDP и NetFlow. Почему именно их? Потому что у нас на BPF построена целая платформа для обработки трафика со своими нюансами и особенностями. NetFlow — это лишь один её элемент.

ИТ-инфраструктуру нашей компании можно условно разделить на 3 типа: физические серверы, виртуализация и Kubernetes-кластеры. У каждого из этих типов есть свои особенности сбора статистики, о которых рассказано в статье.

Читать дальше на Хабре

📱

Telegram | 📲 MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍4❤1

1.7K views10:25

Мониторим ИТ

OpenTelemetry со Spring Boot

В экосистеме Spring большая часть телеметрии была завязана на Micrometer Project (Был ещё spring-cloud-sleuth если кто помнит). Но полноценного all-in-one решения для того, чтобы Spring Boot приложение просто начало экспортировать телеметрию по OTLP не было. До Spring Boot 4.

На данный момент для интеграции OTel в Spring Boot приложения есть 3 пути: Java Agent (минимум кода, но чувствителен к версиям и может конфликтовать с другими агентами), сторонний OTel starter (стартер от самих OpenTelemetry, но тянет alpha-зависимости) и новый spring-boot-starter-opentelemetry, доступный в Spring Boot 4.0.

Подробнее в статье.

📱

Telegram | 📲 MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2

1.54K viewsedited 09:26

Когда мониторинг молчит, а сервис уже падает

«404 секунды» — ИТ-шоу для тех, у кого нет времени на лишнее: ровно 404 секунды про инженерные темы, которые реально бьют по продакшену. DevOps, SRE, техлиды — здесь не новости, а выжимка того, что влияет на инфраструктуру прямо сейчас.

Новый выпуск — про observability. Тема, с которой многие сталкивались на практике. Когда алерты перестают восприниматься как сигнал — классический alert fatigue: все орет, ты фильтруешь, а в итоге важное легко пропустить. В выпуске как раз про это: почему привычный мониторинг не справляется с микросервисами и Kubernetes, как начать понимать причины, а не только чинить симптомы, и что делать с alert fatigue, когда алертов становится слишком много.

Отдельно ведущий говорит про AI в мониторинге и инцидентах, как автоматизация постепенно меняет подход к наблюдаемости, и приводит примеры из практики, например, как такие подходы реализуются через платформы вроде Monium, которые используют сервисы и продукты Яндекса.

Смотреть и слушать выпуск тут: YouTube, VK Видео и Яндекс Музыка. И подписывайтесь, чтобы быть в теме без лишнего шума.

🔥9👍4👎3

1.5K views11:02

Мониторим ИТ

Observability Lessons From OpenAI

В этой статье в блоге VictoriaMetrics рассказывают (и делятся конфигурацией docker-compose) как настроить локальную наблюдаемость локального ИИ-агента при помощи VictoriaMetrics, VictoriaLogs, VictoriaTraces и OTel-коллектора.

📱

Telegram | 📲 MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍4

1.54K views13:03

Мониторим ИТ

Собираем 1 000 000 метрик в секунду с сетевых устройств

«Бди!» — сказал Козьма Прутков. И действительно, как инженер я считаю важным бдительно следить за показателями сетевых устройств, да и не только сетевых. На связи Александр Балезин из отдела сетевой разработки Yandex Infrastructure. Сегодня расскажу о нашем новом коллекторе метрик с сетевых устройств, о том как мы к нему пришли и о системах вокруг сетевых метрик.

Поделюсь опытом модульного подхода, решениями для поддержки множества брендов устройств и тем, как обеспечить надёжный мониторинг даже в самом сложном сетевом зоопарке.

Статья Яндекс Клауд на Хабре

📱

Telegram | 📲 MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥4❤1👎1

1.48K views06:05

Мониторим ИТ

Более трети российского бизнеса уже использует ИИ в основной деятельности

Как компании из разных отраслей превращают искусственный интеллект в рабочий инструмент? Об этом расскажут эксперты Selectel, провайдера ИИ-инфраструктуры, и других топовых ИТ-компаний на конференции МЛечный путь.

О чем еще расскажут:

🔺Как безопасно внедрить генеративные модели
🔺Как посчитать эффект от внедрения ИИ
🔺Как выбрать железо для инференса

22 апреля в Москве МЛечный путь соберет вместе представителей индустрии, которые применяют или хотят начать применять ИИ для решения бизнес-задач. Присоединяйтесь, регистрация бесплатная: https://slc.tl/n00nn

Реклама. АО "Селектел". erid:2W5zFJ9Cc6V

🔥3👎2👍1

1.41K views10:00

Мониторим ИТ

Announcing Role Based Access Control in ClickStack

ClickStack становится все более зрелой платформой и вот появилась ролевая модель. До внедрения RBAC все пользователи ClickStack принадлежали к одной группе и имели одинаковые разрешения в приложении, без возможности дифференцировать доступ между пользователями или командами в рамках одного экземпляра.

Для обеспечения изоляции командам приходилось использовать отдельные экземпляры HyperDX. Каждый экземпляр настраивался с собственными учетными данными для подключения и источниками данных, что сегментировало доступ на уровне среды, а не внутри самого продукта. В общем, были костыли-костыли.

Сейчас для каждого типа ресурсов ролям может быть назначен один из трех уровней доступа: отсутствие доступа, чтение или управление.

Подробнее в блоге ClickHouse

📱

Telegram | 📲 MAX

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2

1.2K views09:11

Мониторим ИТ

⌨️ Станьте экспертом по сетям ЦОД: проектируйте инфраструктуру для ИИ и облаков

Курс «Дизайн сетей ЦОД» в OTUS научит проектировать надёжные сетевые инфраструктуры для высоконагруженных систем — облаков и ИИ.

Вы освоите:
- современные архитектуры сетей;
- построение IP‑фабрик;
- работу протокола BGP;
- архитектуру underlay и overlay сетей;
- технологии EVPN и VXLAN.

Что получите:
✔️ востребованные навыки для IT‑компаний и облачных провайдеров;
✔️ шанс перейти на позицию старшего сетевого инженера или архитектора ЦОД;
✔️ портфолио из реальных проектов.

Формат: живые занятия с обратной связью, разбор реальных архитектур и лучших практик от экспертов.

Старт курса: до 6 апреля.
Дедлайн со скидкой: до 4 апреля.
+10 % к скидкам на сайте по промокоду birthday — в честь дня рождения OTUS 🎉!

👉 Записывайтесь сейчас и пройдите короткое тестирование (5–7 минут): https://tglink.io/6a3eb56d57aff7?erid=2W5zFGF1z4H

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

🔥2👍1

765 views10:04

About

Blog

Apps

Platform