Эффективный мониторинг облачных решений: первые шаги от метрик к асинхронным задачам
Пост на Хабре от Yandex Cloud. Рассказывают про реальные сценарии использования мониторинга облачных решений: покажут как настроить дашборды, быстро проверить гипотезы при расследовании инцидента, а в конце собераны лучшие практики для настройки мониторинга.
Пост на Хабре от Yandex Cloud. Рассказывают про реальные сценарии использования мониторинга облачных решений: покажут как настроить дашборды, быстро проверить гипотезы при расследовании инцидента, а в конце собераны лучшие практики для настройки мониторинга.
🔥7👎2
🧐 Когда проект требует максимальной отдачи, приходит aézа — и всё перестаёт выглядеть как мем с низким разрешением.
🌆 Гонконг, Торонто, Токио, Таганрог — всего этого пока нет, зато есть Питер, с которым всё то, что медленно, становится быстрым.
🤖 К тому же, можно бесплатно попробовать Терминатор — сервер прямо в браузере.
🚀 Держи курс на успех вместе с хостингом aeza.net
Реклама. ООО «Аеза Групп», ИНН 7813654490, erid 2VtzqwNyNce
🌆 Гонконг, Торонто, Токио, Таганрог — всего этого пока нет, зато есть Питер, с которым всё то, что медленно, становится быстрым.
🤖 К тому же, можно бесплатно попробовать Терминатор — сервер прямо в браузере.
🚀 Держи курс на успех вместе с хостингом aeza.net
Реклама. ООО «Аеза Групп», ИНН 7813654490, erid 2VtzqwNyNce
🔥8❤5👍5👎5⚡1
How Should You Compensate Your Employees for Being On Call?
Статья от PagerDuty о том, как правильно платить дежурным инженерам за работу. Спойлер: платите им на основе доступности сервисов. Как вам такой вариант?
Статья от PagerDuty о том, как правильно платить дежурным инженерам за работу. Спойлер: платите им на основе доступности сервисов. Как вам такой вариант?
🔥5👍1
wave
Wave отслеживает Deployments, StatefulSets и DaemonSets в кластере Kubernetes и следит за тем, чтобы их модули всегда имели актуальную конфигурацию.
Путем мониторинга смонтированных ConfigMaps и Secrets Wave может инициировать последовательное обновление Deployment при изменении смонтированной конфигурации.
Репыч на Гитхаб
Wave отслеживает Deployments, StatefulSets и DaemonSets в кластере Kubernetes и следит за тем, чтобы их модули всегда имели актуальную конфигурацию.
Путем мониторинга смонтированных ConfigMaps и Secrets Wave может инициировать последовательное обновление Deployment при изменении смонтированной конфигурации.
Репыч на Гитхаб
GitHub
GitHub - wave-k8s/wave: Kubernetes configuration tracking controller
Kubernetes configuration tracking controller. Contribute to wave-k8s/wave development by creating an account on GitHub.
🔥4❤2👍2👎1
Как я пришел к SLO: От хаоса алертов к осознанности
Опыт SRE-инженера из Ви.Tech (IT-дочка ВсеИнструменты.ру)
Опыт SRE-инженера из Ви.Tech (IT-дочка ВсеИнструменты.ру)
🔥7👍2
Учебный центр Галс Софтвэр приглашает на осеннюю серию тренингов-интенсивов по Elasticsearch и OpenSearch.
📅 ElasticSearch База 22-24 октября 2025
📅 OpenSearch База 29-31 октября 2025
Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с соответствующей системой сразу после прохождения тренинга.
Мы опросили участников предыдущих потоков и сформулировали основные преимущества от прохождения тренингов:
📖 устранить пробелы. Часто знания по соответствующей системе ограничиваются эпизодическим изучением документации и фрагментарны. Интенсивы помогут систематизировать знания и откроют для вас новые возможности уже знакомой системы.
📖 делать своими силами. Участие подрядчиков в проектах внедрения подразумевает предоставление доступа в ваше окружение. Прохождение официальных тренингов позволит вам выполнять работы силами штатных сотрудников.
📖 распространять знания. Сотрудники, прошедшие тренинг, не просто совершенствуют свои собственные технические навыки — они привносят полученные знания в коллектив и делятся ими со своими коллегами.
❗️Полное расписание тренингов.
Подробную информацию вы можете запросить, написав @galssoftware или через почту hello@gals.software.
📅 ElasticSearch База 22-24 октября 2025
📅 OpenSearch База 29-31 октября 2025
Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с соответствующей системой сразу после прохождения тренинга.
Мы опросили участников предыдущих потоков и сформулировали основные преимущества от прохождения тренингов:
📖 устранить пробелы. Часто знания по соответствующей системе ограничиваются эпизодическим изучением документации и фрагментарны. Интенсивы помогут систематизировать знания и откроют для вас новые возможности уже знакомой системы.
📖 делать своими силами. Участие подрядчиков в проектах внедрения подразумевает предоставление доступа в ваше окружение. Прохождение официальных тренингов позволит вам выполнять работы силами штатных сотрудников.
📖 распространять знания. Сотрудники, прошедшие тренинг, не просто совершенствуют свои собственные технические навыки — они привносят полученные знания в коллектив и делятся ими со своими коллегами.
❗️Полное расписание тренингов.
Подробную информацию вы можете запросить, написав @galssoftware или через почту hello@gals.software.
🔥6❤2👍1👎1
Auto-Instrumenting Go Applications Without Modifying Source Code
Go компилируется статически, то есть весь код и библиотеки встраиваются в исполняемый файл во время компиляции. Из-за этого традиционная автоматическая инструментация, основанная на динамическом подключении к функциям во время выполнения, не работает нормально. В отличие от таких языков, как Python или JavaScript, в Go отсутствуют хуки во время выполнения для перехвата вызовов библиотек, поэтому разработчикам обычно приходится вручную добавлять трассировку и распространение контекста, что усложняет инструментацию и повышает вероятность ошибок.
Инструментарий eBPF решает эту проблему, выполняя трассировку на уровне ядра, вне самой программы. Он может перехватывать все сетевые вызовы, системные вызовы и события ввода-вывода, обеспечивая полную наблюдаемость без изменения кода Go. По сути, он видит всё, что может скрывать вшитый двоичный код Go. Читать дальше.
❗️ Статья на medium.com
Go компилируется статически, то есть весь код и библиотеки встраиваются в исполняемый файл во время компиляции. Из-за этого традиционная автоматическая инструментация, основанная на динамическом подключении к функциям во время выполнения, не работает нормально. В отличие от таких языков, как Python или JavaScript, в Go отсутствуют хуки во время выполнения для перехвата вызовов библиотек, поэтому разработчикам обычно приходится вручную добавлять трассировку и распространение контекста, что усложняет инструментацию и повышает вероятность ошибок.
Инструментарий eBPF решает эту проблему, выполняя трассировку на уровне ядра, вне самой программы. Он может перехватывать все сетевые вызовы, системные вызовы и события ввода-вывода, обеспечивая полную наблюдаемость без изменения кода Go. По сути, он видит всё, что может скрывать вшитый двоичный код Go. Читать дальше.
❗️ Статья на medium.com
🔥7👍1👎1
Postmortem без обвинений: Миф или реальность?
Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды.
Статистика, которая отрезвляет:
🚀 85% проблем в production — системные, а не человеческие ошибки (Google SRE)
🚀 94% инцидентов имеют множественные причины (STELLA Report)
🚀 Команды с культурой обвинений имеют в 3 раза больше повторных инцидентов
Читать дальше на Хабре
Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды.
Статистика, которая отрезвляет:
🚀 85% проблем в production — системные, а не человеческие ошибки (Google SRE)
🚀 94% инцидентов имеют множественные причины (STELLA Report)
🚀 Команды с культурой обвинений имеют в 3 раза больше повторных инцидентов
Читать дальше на Хабре
🔥10👍4❤2
🚀 Cloud-native объединяет
В России появится первая независимая ассоциация, которая говорит на языке инженеров — Ассоциация облачно-ориентированных технологий (АОТ).
Её запустят Yandex Cloud, VK Cloud и «Флант», чтобы вместе развивать Kubernetes, открытые технологии и практики DevOps без привязки к вендорам.
Познакомиться с проектом можно будет 4 декабря на конференции Kuber Conf by АОТ, где расскажут о миссии АОТ и можно будет подать заявку на вступление.
Вступить в АОТ смогут и компании, и отдельные инженеры. Задача проста — объединить профессионалов, для которых облака — не просто инфраструктура, а инструмент развития индустрии.
📍 Следите за проектом и присоединяйтесь к движению.
Реклама. ООО Яндекс.Облако. ИНН 7704458262
В России появится первая независимая ассоциация, которая говорит на языке инженеров — Ассоциация облачно-ориентированных технологий (АОТ).
Её запустят Yandex Cloud, VK Cloud и «Флант», чтобы вместе развивать Kubernetes, открытые технологии и практики DevOps без привязки к вендорам.
«Мы считаем, что базовые облачные технологии должны быть доступны всем, и у каждого должна быть возможность внести свой вклад», — говорит Александр Титов, CEO компании «Флант».
Познакомиться с проектом можно будет 4 декабря на конференции Kuber Conf by АОТ, где расскажут о миссии АОТ и можно будет подать заявку на вступление.
Вступить в АОТ смогут и компании, и отдельные инженеры. Задача проста — объединить профессионалов, для которых облака — не просто инфраструктура, а инструмент развития индустрии.
📍 Следите за проектом и присоединяйтесь к движению.
Реклама. ООО Яндекс.Облако. ИНН 7704458262
aot-kuberconf.ru
KuberConf by AOT - Первая некоммерческая коммьюнити конференция по K8s в РФ
Первая некоммерческая коммьюнити конференция по K8s в РФ. Объединим экспертов на одной площадке, чтобы поговорить про новые подходы в разработке Kubernetes®.
🔥7👎6❤2👍2🤔2
Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз
В этой статье автор делится практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.
Репыч Uptrace на Гитхабе
В этой статье автор делится практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.
Репыч Uptrace на Гитхабе
🔥11❤1👍1
5 трюков в bash, которые сделают вас лучшим SRE
При отладке проблемы в боевой среде каждая секунда на счету. Хотя, большинство инженеров знают основной bash-команды, разница между джуном и синьором SRE часто заключается в знании этих мощных, но малоизвестных bash-функций, которые могут превратить 30-минутный поиск проблемы в 5-минутную легкую прогулку. Действительно, полезные советы
При отладке проблемы в боевой среде каждая секунда на счету. Хотя, большинство инженеров знают основной bash-команды, разница между джуном и синьором SRE часто заключается в знании этих мощных, но малоизвестных bash-функций, которые могут превратить 30-минутный поиск проблемы в 5-минутную легкую прогулку. Действительно, полезные советы
Teletype
5 трюков в bash, которые сделают вас лучшим SRE
Перевод сделан специально для телеграм-канала Мониторим ИТ.
🔥13👍5👎5
Как стать повелителем событий в Zabbix и не привлечь внимания санитаров — вебинар 28 октября в 11 часов мск.
Приглашаем на наш следующий вебинар. Поговорим о том, как управлять событиями, чтобы они не стали проблемой для вас или вашей дежурной смены. Только рабочие техники.
Регистрация
Приглашаем на наш следующий вебинар. Поговорим о том, как управлять событиями, чтобы они не стали проблемой для вас или вашей дежурной смены. Только рабочие техники.
Регистрация
👎8🔥6👍5
pg_expecto: Аудит производительности инфраструктуры при нагрузочном тестировании СУБД PostgreSQL
В этой статье мы рассмотрено, как расширение pg_expecto объединяет метрики инфраструктуры и PostgreSQL в едином месте. Вы узнаете как превратить разрозненные данные в целостную картину. Читать на Хабре.
В этой статье мы рассмотрено, как расширение pg_expecto объединяет метрики инфраструктуры и PostgreSQL в едином месте. Вы узнаете как превратить разрозненные данные в целостную картину. Читать на Хабре.
🔥6👎4👍1
Why I recommend native Prometheus instrumentation over OpenTelemetry
Учитывая хайп вокруг OpenTelemetry (OTel), может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования приложений. В некоторых ситуациях стоит использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если вы хотите получить наилучший опыт мониторинга. В этой статье рассмотрены причины такого подхода.
Учитывая хайп вокруг OpenTelemetry (OTel), может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования приложений. В некоторых ситуациях стоит использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если вы хотите получить наилучший опыт мониторинга. В этой статье рассмотрены причины такого подхода.
🔥7❤3👍2
Пример настройки стека мониторинга: Prometheus, Loki, Grafana, Promtail и Tempo
Наблюдаемость — это уже не роскошь, а необходимость. В этой статье рассказано, как настроить полноценный стек мониторинга с открытым исходным кодом для приложения на базе Node.js (NestJS) с использованием Prometheus, Loki, Grafana, Promtail и Tempo. В итоге вы получите полную observability-модель: метрики, логи и трассировки — всё на одном дашборде.
Наблюдаемость — это уже не роскошь, а необходимость. В этой статье рассказано, как настроить полноценный стек мониторинга с открытым исходным кодом для приложения на базе Node.js (NestJS) с использованием Prometheus, Loki, Grafana, Promtail и Tempo. В итоге вы получите полную observability-модель: метрики, логи и трассировки — всё на одном дашборде.
🔥7👎5
On-call ротация без выгорания
«Я уволился из своей первой работы SRE‑инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять «по‑настоящему», потому что «горячий фикс же работает». На восьмое утро я пришел в офис и положил заявление на стол.
Это было пять лет назад. С тех пор я прошел через четыре компании, построил on‑call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on‑call ротацию, которая не приведет к массовым увольнениям.» Читать дальше на Хабре.
«Я уволился из своей первой работы SRE‑инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять «по‑настоящему», потому что «горячий фикс же работает». На восьмое утро я пришел в офис и положил заявление на стол.
Это было пять лет назад. С тех пор я прошел через четыре компании, построил on‑call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on‑call ротацию, которая не приведет к массовым увольнениям.» Читать дальше на Хабре.
🔥12👎6👍5❤1
Величие и нищета Виктории и Прометея
«Итак, у меня был сервис. Обычная молотилка данных, каждый с такой хотя бы раз да сталкивался - что-то на входе, что-то на выходе, а внутри походы в базу, HTTP-вызовы, шаблоны, скриптовая логика... В общем, много всякого.
Ну, ладно, тут стоит сразу уточнить, что сервис с особенностями - молотилка данных устроена так, что пытается работать с разными форматами на входе и выходе, а внутри держать всё в одном представлении. Но вот из-за этой потребности работать с разным, внутреннее представление это - мапы, слайсы, мапы в слайсах, слайсы в мапах, да ещё и из всех щелей торчит куча метрик.
Беглый поиск привел к пакету https://github.com/VictoriaMetrics/metrics от авторов VictoriaMetrics - то, что в конечном итоге привело к написанию этой статьи. В любой инфраструктуре, с которой мне приходилось работать, Виктория всегда занимала почётное место Главного Хранилища Метрик, посему решено - время щупать новую библиотеку. Читать дальше на Хабре.
«Итак, у меня был сервис. Обычная молотилка данных, каждый с такой хотя бы раз да сталкивался - что-то на входе, что-то на выходе, а внутри походы в базу, HTTP-вызовы, шаблоны, скриптовая логика... В общем, много всякого.
Ну, ладно, тут стоит сразу уточнить, что сервис с особенностями - молотилка данных устроена так, что пытается работать с разными форматами на входе и выходе, а внутри держать всё в одном представлении. Но вот из-за этой потребности работать с разным, внутреннее представление это - мапы, слайсы, мапы в слайсах, слайсы в мапах, да ещё и из всех щелей торчит куча метрик.
Беглый поиск привел к пакету https://github.com/VictoriaMetrics/metrics от авторов VictoriaMetrics - то, что в конечном итоге привело к написанию этой статьи. В любой инфраструктуре, с которой мне приходилось работать, Виктория всегда занимала почётное место Главного Хранилища Метрик, посему решено - время щупать новую библиотеку. Читать дальше на Хабре.
🔥10👍3❤1
Observability vs Monitoring: за что вы платите?
Интересный разбор того, за что вы платите при выборе системы мониторинга. Кажется, написано от первого лица.
«Мы начинали как стартап с 10 серверами. Поставили Prometheus + Grafana + ELK. Бесплатно! Ну, почти бесплатно — нужны были серверы для запуска. $500 в месяц за инфраструктуру. Красота!
Потом мы выросли до 100 серверов. ELK начал требовать уже 5 нод для нормальной работы. Prometheus нужен был federation для сбора метрик. Появился dedicated инженер, который этим занимался. $5,000 за инфраструктуру + $10,000 за инженера = $15,000 в месяц. Уже не так весело.
На 500 серверах self-hosted решение превратилось в отдельный проект. Три инженера фултайм занимались только поддержкой мониторинга. Апгрейды, траблшутинг, оптимизация. $50,000 в месяц только на зарплаты. Плюс инфраструктура. Плюс то, что эти инженеры не делали продукт.»
Интересный разбор того, за что вы платите при выборе системы мониторинга. Кажется, написано от первого лица.
«Мы начинали как стартап с 10 серверами. Поставили Prometheus + Grafana + ELK. Бесплатно! Ну, почти бесплатно — нужны были серверы для запуска. $500 в месяц за инфраструктуру. Красота!
Потом мы выросли до 100 серверов. ELK начал требовать уже 5 нод для нормальной работы. Prometheus нужен был federation для сбора метрик. Появился dedicated инженер, который этим занимался. $5,000 за инфраструктуру + $10,000 за инженера = $15,000 в месяц. Уже не так весело.
На 500 серверах self-hosted решение превратилось в отдельный проект. Три инженера фултайм занимались только поддержкой мониторинга. Апгрейды, траблшутинг, оптимизация. $50,000 в месяц только на зарплаты. Плюс инфраструктура. Плюс то, что эти инженеры не делали продукт.»
🔥10👍8👎1
Дашборды: между красотой и эффективностью
В современном мире дашборды стали неотъемлемой частью любого бизнеса. Однако часто мы сталкиваемся с тем, что красивые, но бесполезные панели данных не приносят реальной пользы. В этой статье разбираются основные проблемы создания дашбордов и посмотрим, как их решить на практике (на примере Apache Superset).
В современном мире дашборды стали неотъемлемой частью любого бизнеса. Однако часто мы сталкиваемся с тем, что красивые, но бесполезные панели данных не приносят реальной пользы. В этой статье разбираются основные проблемы создания дашбордов и посмотрим, как их решить на практике (на примере Apache Superset).
🔥7👍2
sql-to-logsql
Веб-приложение, предоставляющее пользовательский интерфейс для запросов к данным VictoriaLogs или VictoriaTraces с помощью SQL.
Он позволяет писать SQL-запросы к данным логов и мгновенно преобразовывать их в запросы VictoriaLogs LogsQL. При необходимости он может выполнять полученные запросы LogsQL в VictoriaLogs и управлять представлениями, хранящимися на диске.
Репыч на Гитхаб
@monitorim_it
Веб-приложение, предоставляющее пользовательский интерфейс для запросов к данным VictoriaLogs или VictoriaTraces с помощью SQL.
Он позволяет писать SQL-запросы к данным логов и мгновенно преобразовывать их в запросы VictoriaLogs LogsQL. При необходимости он может выполнять полученные запросы LogsQL в VictoriaLogs и управлять представлениями, хранящимися на диске.
Репыч на Гитхаб
@monitorim_it
🔥11👍5🤔3