Эволюция логирования в Lenta tech: грабли, миграции и неочевидный финал с Victoria Logs
В статье рассказано о том, как за последние четыре года менялась система логирования в Ленте, какие решения они принимали по ходу роста инфраструктуры и к какому результату в итоге пришли. Спойлер: Loki -> Clickhouse -> VictoriaLogs.
@monitorim_it
В статье рассказано о том, как за последние четыре года менялась система логирования в Ленте, какие решения они принимали по ходу роста инфраструктуры и к какому результату в итоге пришли. Спойлер: Loki -> Clickhouse -> VictoriaLogs.
@monitorim_it
👍11🔥8🤔2👎1
Как в Авито построили систему мониторинга BGP
В этой статье рассказано, зачем в Авито централизованно собирают и анализируют маршрутную информацию с сетевых устройств, причём тут протокол BMP и как устроена их система мониторинга. В конце статьи лаба на docker-compose, которую вы можете запустить у себя и посмотреть на систему в действии.
Статья будет полезна в первую очередь сетевым инженерам, командам SRE и мониторинга, которые отвечают за доступность и качество сервиса.
Репыч системы на Гитхаб
@monitorim_it
В этой статье рассказано, зачем в Авито централизованно собирают и анализируют маршрутную информацию с сетевых устройств, причём тут протокол BMP и как устроена их система мониторинга. В конце статьи лаба на docker-compose, которую вы можете запустить у себя и посмотреть на систему в действии.
Статья будет полезна в первую очередь сетевым инженерам, командам SRE и мониторинга, которые отвечают за доступность и качество сервиса.
Репыч системы на Гитхаб
@monitorim_it
👍9🔥7
Логи: всё, что нужно знать тестировщику
Обзорная статье об инструментах логирования
Логи — это записи о том, как работает любая система: будь то сайт, мобильное приложение или микросервис. Логирование происходит автоматически, информация сохраняется в файлах или специальных сервисах. Пользователь этих записей не видит, но для тестировщика логи особенно важны — ведь по ним можно определить, что происходило в системе при сбое, даже если на фронтенде отображается только общее сообщение об ошибке.
Обзорная статье об инструментах логирования
🔥3❤2
Native OpenTelemetry inside Alloy: Now you can get the best of both worlds
Начиная с версии 1.14.0, Alloy включает экспериментальный механизм OpenTelemetry, который позволяет настраивать Alloy с помощью стандартного YAML-файла OTEL-коллектора. Эта функция необязательна и полностью обратно совместима, поэтому существующая конфигурация Alloy не изменится, если вы не включите поддержку OpenTelemetry. Подробности в блоге Grafana.
А кто-то из читателей канала пользуется Alloy? Расскажите о своем опыте.
@monitorim_it
Начиная с версии 1.14.0, Alloy включает экспериментальный механизм OpenTelemetry, который позволяет настраивать Alloy с помощью стандартного YAML-файла OTEL-коллектора. Эта функция необязательна и полностью обратно совместима, поэтому существующая конфигурация Alloy не изменится, если вы не включите поддержку OpenTelemetry. Подробности в блоге Grafana.
А кто-то из читателей канала пользуется Alloy? Расскажите о своем опыте.
@monitorim_it
👍6🔥6
Неочевидные оптимизации Iceberg таблиц
Вы спросите: а при чем тут мониторинг и Iceberg? А при том, что в таких системах как Apache Iceberg или Delta Lake можно эффективно хранить Observability-данные. При этом, конечно, правильно все настроив. В статье на Хабре вы найдете подробности.
Есть еще одна статья от Clickhouse для погружения в тему. Здесь вы узнаете о премуществах использования ClickStack (observability-платформы) совместно с Clickhouse и, например, Iceberg.
@monitorim_it
Iceberg становится де-факто отраслевым стандартом при построении lakehouse в России. Для сравнения, на последней конференции smart-data, Iceberg по частоте упоминания уступает только Spark. Это значит, что уверенное владение механикой работы Iceberg становится обязательным навыком для инженеров данных и платформенных команд.
Вы спросите: а при чем тут мониторинг и Iceberg? А при том, что в таких системах как Apache Iceberg или Delta Lake можно эффективно хранить Observability-данные. При этом, конечно, правильно все настроив. В статье на Хабре вы найдете подробности.
Есть еще одна статья от Clickhouse для погружения в тему. Здесь вы узнаете о премуществах использования ClickStack (observability-платформы) совместно с Clickhouse и, например, Iceberg.
@monitorim_it
👍5🔥5
Создание платформы наблюдаемости с помощью SigNoz, ClickHouse и OpenTelemetry
В этой статье вы узнаете об использовании стека наблюдаемости без Prometheus. Для промежуточного хранения данных используется Kafka. Весьма интересный подход.
📱 Telegram | 📲 MAX
В этой статье вы узнаете об использовании стека наблюдаемости без Prometheus. Для промежуточного хранения данных используется Kafka. Весьма интересный подход.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍3❤1
linnix
Утилита top показывает 80% загрузки CPU, Prometheus показывает высокую задержку, но какой именно pod тормозит работу вашего платежного сервиса?
Linnix использует eBPF + PSI (Pressure Stall Information) для решения этой проблемы. PSI измеряет фактическое время простоя — не использование ресурсов, а конкуренцию за ресурсы. Pod, использующий 40% CPU при 60% PSI, работает хуже, чем под, использующий 100% CPU при 5% PSI.
Что обнаруживает Linnix:
🚀 Шумные соседи: какой контейнер морит голодом другие?
🚀 Форк-штормы: неконтролируемое создание процессов перед сбоем узла.
🚀 Причина задержки: «Pod X вызвал задержку в 300 мс у pod Y».
🚀 Насыщение PSI: нагрузка на CPU/ввод-вывод/память, которые не отображаются в top.
Репыч на Гитхаб
📱 Telegram | 📲 MAX
Утилита top показывает 80% загрузки CPU, Prometheus показывает высокую задержку, но какой именно pod тормозит работу вашего платежного сервиса?
Linnix использует eBPF + PSI (Pressure Stall Information) для решения этой проблемы. PSI измеряет фактическое время простоя — не использование ресурсов, а конкуренцию за ресурсы. Pod, использующий 40% CPU при 60% PSI, работает хуже, чем под, использующий 100% CPU при 5% PSI.
Что обнаруживает Linnix:
🚀 Шумные соседи: какой контейнер морит голодом другие?
🚀 Форк-штормы: неконтролируемое создание процессов перед сбоем узла.
🚀 Причина задержки: «Pod X вызвал задержку в 300 мс у pod Y».
🚀 Насыщение PSI: нагрузка на CPU/ввод-вывод/память, которые не отображаются в top.
Репыч на Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍2❤1
Собираем NetFlow-статистику через eBPF: от физических серверов до K8s
Читать дальше на Хабре
📱 Telegram | 📲 MAX
Когда речь идёт о расследовании инцидентов, связанных с безопасностью своих ресурсов, «приблизительной» статистики недостаточно — нужны подробности. Однако, встроенные в сетевое оборудование решения (вроде sFlow/NetFlow) с этим, как правило, не справляются:
🚀 попытки передать полную телеметрию слишком сильно нагружают сетевое «железо»;
🚀 семплирование sFlow не позволяет получить наблюдаемость на уровне каждой сессии;
🚀 экспорт специфических полей данных часто невозможен в принципе.
Поэтому мы реализовали собственную систему сбора данных. Она позволяет «видеть» не только трафик на границе сети, но и весь жизненный цикл каждой сессии.
За основу взяли eBPF/XDP и NetFlow. Почему именно их? Потому что у нас на BPF построена целая платформа для обработки трафика со своими нюансами и особенностями. NetFlow — это лишь один её элемент.
ИТ-инфраструктуру нашей компании можно условно разделить на 3 типа: физические серверы, виртуализация и Kubernetes-кластеры. У каждого из этих типов есть свои особенности сбора статистики, о которых рассказано в статье.
Читать дальше на Хабре
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4❤1
OpenTelemetry со Spring Boot
В экосистеме Spring большая часть телеметрии была завязана на Micrometer Project (Был ещё spring-cloud-sleuth если кто помнит). Но полноценного all-in-one решения для того, чтобы Spring Boot приложение просто начало экспортировать телеметрию по OTLP не было. До Spring Boot 4.
На данный момент для интеграции OTel в Spring Boot приложения есть 3 пути: Java Agent (минимум кода, но чувствителен к версиям и может конфликтовать с другими агентами), сторонний OTel starter (стартер от самих OpenTelemetry, но тянет alpha-зависимости) и новый spring-boot-starter-opentelemetry, доступный в Spring Boot 4.0.
Подробнее в статье.
📱 Telegram | 📲 MAX
В экосистеме Spring большая часть телеметрии была завязана на Micrometer Project (Был ещё spring-cloud-sleuth если кто помнит). Но полноценного all-in-one решения для того, чтобы Spring Boot приложение просто начало экспортировать телеметрию по OTLP не было. До Spring Boot 4.
На данный момент для интеграции OTel в Spring Boot приложения есть 3 пути: Java Agent (минимум кода, но чувствителен к версиям и может конфликтовать с другими агентами), сторонний OTel starter (стартер от самих OpenTelemetry, но тянет alpha-зависимости) и новый spring-boot-starter-opentelemetry, доступный в Spring Boot 4.0.
Подробнее в статье.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Media is too big
VIEW IN TELEGRAM
Когда мониторинг молчит, а сервис уже падает
«404 секунды» — ИТ-шоу для тех, у кого нет времени на лишнее: ровно 404 секунды про инженерные темы, которые реально бьют по продакшену. DevOps, SRE, техлиды — здесь не новости, а выжимка того, что влияет на инфраструктуру прямо сейчас.
Новый выпуск — про observability. Тема, с которой многие сталкивались на практике. Когда алерты перестают восприниматься как сигнал — классический alert fatigue: все орет, ты фильтруешь, а в итоге важное легко пропустить. В выпуске как раз про это: почему привычный мониторинг не справляется с микросервисами и Kubernetes, как начать понимать причины, а не только чинить симптомы, и что делать с alert fatigue, когда алертов становится слишком много.
Отдельно ведущий говорит про AI в мониторинге и инцидентах, как автоматизация постепенно меняет подход к наблюдаемости, и приводит примеры из практики, например, как такие подходы реализуются через платформы вроде Monium, которые используют сервисы и продукты Яндекса.
Смотреть и слушать выпуск тут: YouTube, VK Видео и Яндекс Музыка. И подписывайтесь, чтобы быть в теме без лишнего шума.
«404 секунды» — ИТ-шоу для тех, у кого нет времени на лишнее: ровно 404 секунды про инженерные темы, которые реально бьют по продакшену. DevOps, SRE, техлиды — здесь не новости, а выжимка того, что влияет на инфраструктуру прямо сейчас.
Новый выпуск — про observability. Тема, с которой многие сталкивались на практике. Когда алерты перестают восприниматься как сигнал — классический alert fatigue: все орет, ты фильтруешь, а в итоге важное легко пропустить. В выпуске как раз про это: почему привычный мониторинг не справляется с микросервисами и Kubernetes, как начать понимать причины, а не только чинить симптомы, и что делать с alert fatigue, когда алертов становится слишком много.
Отдельно ведущий говорит про AI в мониторинге и инцидентах, как автоматизация постепенно меняет подход к наблюдаемости, и приводит примеры из практики, например, как такие подходы реализуются через платформы вроде Monium, которые используют сервисы и продукты Яндекса.
Смотреть и слушать выпуск тут: YouTube, VK Видео и Яндекс Музыка. И подписывайтесь, чтобы быть в теме без лишнего шума.
🔥9👍4👎3
Observability Lessons From OpenAI
В этой статье в блоге VictoriaMetrics рассказывают (и делятся конфигурацией docker-compose) как настроить локальную наблюдаемость локального ИИ-агента при помощи VictoriaMetrics, VictoriaLogs, VictoriaTraces и OTel-коллектора.
📱 Telegram | 📲 MAX
В этой статье в блоге VictoriaMetrics рассказывают (и делятся конфигурацией docker-compose) как настроить локальную наблюдаемость локального ИИ-агента при помощи VictoriaMetrics, VictoriaLogs, VictoriaTraces и OTel-коллектора.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4
Собираем 1 000 000 метрик в секунду с сетевых устройств
Статья Яндекс Клауд на Хабре
📱 Telegram | 📲 MAX
«Бди!» — сказал Козьма Прутков. И действительно, как инженер я считаю важным бдительно следить за показателями сетевых устройств, да и не только сетевых. На связи Александр Балезин из отдела сетевой разработки Yandex Infrastructure. Сегодня расскажу о нашем новом коллекторе метрик с сетевых устройств, о том как мы к нему пришли и о системах вокруг сетевых метрик.
Поделюсь опытом модульного подхода, решениями для поддержки множества брендов устройств и тем, как обеспечить надёжный мониторинг даже в самом сложном сетевом зоопарке.
Статья Яндекс Клауд на Хабре
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4❤1👎1
Более трети российского бизнеса уже использует ИИ в основной деятельности
Как компании из разных отраслей превращают искусственный интеллект в рабочий инструмент? Об этом расскажут эксперты Selectel, провайдера ИИ-инфраструктуры, и других топовых ИТ-компаний на конференции МЛечный путь.
О чем еще расскажут:
🔺Как безопасно внедрить генеративные модели
🔺Как посчитать эффект от внедрения ИИ
🔺Как выбрать железо для инференса
22 апреля в Москве МЛечный путь соберет вместе представителей индустрии, которые применяют или хотят начать применять ИИ для решения бизнес-задач. Присоединяйтесь, регистрация бесплатная: https://slc.tl/n00nn
Реклама. АО "Селектел". erid:2W5zFJ9Cc6V
Как компании из разных отраслей превращают искусственный интеллект в рабочий инструмент? Об этом расскажут эксперты Selectel, провайдера ИИ-инфраструктуры, и других топовых ИТ-компаний на конференции МЛечный путь.
О чем еще расскажут:
🔺Как безопасно внедрить генеративные модели
🔺Как посчитать эффект от внедрения ИИ
🔺Как выбрать железо для инференса
22 апреля в Москве МЛечный путь соберет вместе представителей индустрии, которые применяют или хотят начать применять ИИ для решения бизнес-задач. Присоединяйтесь, регистрация бесплатная: https://slc.tl/n00nn
Реклама. АО "Селектел". erid:2W5zFJ9Cc6V
🔥3👎2👍1
Announcing Role Based Access Control in ClickStack
ClickStack становится все более зрелой платформой и вот появилась ролевая модель. До внедрения RBAC все пользователи ClickStack принадлежали к одной группе и имели одинаковые разрешения в приложении, без возможности дифференцировать доступ между пользователями или командами в рамках одного экземпляра.
Для обеспечения изоляции командам приходилось использовать отдельные экземпляры HyperDX. Каждый экземпляр настраивался с собственными учетными данными для подключения и источниками данных, что сегментировало доступ на уровне среды, а не внутри самого продукта. В общем, были костыли-костыли.
Сейчас для каждого типа ресурсов ролям может быть назначен один из трех уровней доступа: отсутствие доступа, чтение или управление.
Подробнее в блоге ClickHouse
📱 Telegram | 📲 MAX
ClickStack становится все более зрелой платформой и вот появилась ролевая модель. До внедрения RBAC все пользователи ClickStack принадлежали к одной группе и имели одинаковые разрешения в приложении, без возможности дифференцировать доступ между пользователями или командами в рамках одного экземпляра.
Для обеспечения изоляции командам приходилось использовать отдельные экземпляры HyperDX. Каждый экземпляр настраивался с собственными учетными данными для подключения и источниками данных, что сегментировало доступ на уровне среды, а не внутри самого продукта. В общем, были костыли-костыли.
Сейчас для каждого типа ресурсов ролям может быть назначен один из трех уровней доступа: отсутствие доступа, чтение или управление.
Подробнее в блоге ClickHouse
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
⌨️ Станьте экспертом по сетям ЦОД: проектируйте инфраструктуру для ИИ и облаков
Курс «Дизайн сетей ЦОД» в OTUS научит проектировать надёжные сетевые инфраструктуры для высоконагруженных систем — облаков и ИИ.
Вы освоите:
- современные архитектуры сетей;
- построение IP‑фабрик;
- работу протокола BGP;
- архитектуру underlay и overlay сетей;
- технологии EVPN и VXLAN.
Что получите:
✔️ востребованные навыки для IT‑компаний и облачных провайдеров;
✔️ шанс перейти на позицию старшего сетевого инженера или архитектора ЦОД;
✔️ портфолио из реальных проектов.
Формат: живые занятия с обратной связью, разбор реальных архитектур и лучших практик от экспертов.
Старт курса: до 6 апреля.
Дедлайн со скидкой: до 4 апреля.
+10 % к скидкам на сайте по промокоду birthday — в честь дня рождения OTUS 🎉!
👉 Записывайтесь сейчас и пройдите короткое тестирование (5–7 минут): https://tglink.io/6a3eb56d57aff7?erid=2W5zFGF1z4H
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Курс «Дизайн сетей ЦОД» в OTUS научит проектировать надёжные сетевые инфраструктуры для высоконагруженных систем — облаков и ИИ.
Вы освоите:
- современные архитектуры сетей;
- построение IP‑фабрик;
- работу протокола BGP;
- архитектуру underlay и overlay сетей;
- технологии EVPN и VXLAN.
Что получите:
✔️ востребованные навыки для IT‑компаний и облачных провайдеров;
✔️ шанс перейти на позицию старшего сетевого инженера или архитектора ЦОД;
✔️ портфолио из реальных проектов.
Формат: живые занятия с обратной связью, разбор реальных архитектур и лучших практик от экспертов.
Старт курса: до 6 апреля.
Дедлайн со скидкой: до 4 апреля.
+10 % к скидкам на сайте по промокоду birthday — в честь дня рождения OTUS 🎉!
👉 Записывайтесь сейчас и пройдите короткое тестирование (5–7 минут): https://tglink.io/6a3eb56d57aff7?erid=2W5zFGF1z4H
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🔥2👍1