Как я пришел к SLO: От хаоса алертов к осознанности
Опыт SRE-инженера из Ви.Tech (IT-дочка ВсеИнструменты.ру)
Опыт SRE-инженера из Ви.Tech (IT-дочка ВсеИнструменты.ру)
🔥7👍2
Учебный центр Галс Софтвэр приглашает на осеннюю серию тренингов-интенсивов по Elasticsearch и OpenSearch.
📅 ElasticSearch База 22-24 октября 2025
📅 OpenSearch База 29-31 октября 2025
Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с соответствующей системой сразу после прохождения тренинга.
Мы опросили участников предыдущих потоков и сформулировали основные преимущества от прохождения тренингов:
📖 устранить пробелы. Часто знания по соответствующей системе ограничиваются эпизодическим изучением документации и фрагментарны. Интенсивы помогут систематизировать знания и откроют для вас новые возможности уже знакомой системы.
📖 делать своими силами. Участие подрядчиков в проектах внедрения подразумевает предоставление доступа в ваше окружение. Прохождение официальных тренингов позволит вам выполнять работы силами штатных сотрудников.
📖 распространять знания. Сотрудники, прошедшие тренинг, не просто совершенствуют свои собственные технические навыки — они привносят полученные знания в коллектив и делятся ими со своими коллегами.
❗️Полное расписание тренингов.
Подробную информацию вы можете запросить, написав @galssoftware или через почту hello@gals.software.
📅 ElasticSearch База 22-24 октября 2025
📅 OpenSearch База 29-31 октября 2025
Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с соответствующей системой сразу после прохождения тренинга.
Мы опросили участников предыдущих потоков и сформулировали основные преимущества от прохождения тренингов:
📖 устранить пробелы. Часто знания по соответствующей системе ограничиваются эпизодическим изучением документации и фрагментарны. Интенсивы помогут систематизировать знания и откроют для вас новые возможности уже знакомой системы.
📖 делать своими силами. Участие подрядчиков в проектах внедрения подразумевает предоставление доступа в ваше окружение. Прохождение официальных тренингов позволит вам выполнять работы силами штатных сотрудников.
📖 распространять знания. Сотрудники, прошедшие тренинг, не просто совершенствуют свои собственные технические навыки — они привносят полученные знания в коллектив и делятся ими со своими коллегами.
❗️Полное расписание тренингов.
Подробную информацию вы можете запросить, написав @galssoftware или через почту hello@gals.software.
🔥6❤2👍1👎1
Auto-Instrumenting Go Applications Without Modifying Source Code
Go компилируется статически, то есть весь код и библиотеки встраиваются в исполняемый файл во время компиляции. Из-за этого традиционная автоматическая инструментация, основанная на динамическом подключении к функциям во время выполнения, не работает нормально. В отличие от таких языков, как Python или JavaScript, в Go отсутствуют хуки во время выполнения для перехвата вызовов библиотек, поэтому разработчикам обычно приходится вручную добавлять трассировку и распространение контекста, что усложняет инструментацию и повышает вероятность ошибок.
Инструментарий eBPF решает эту проблему, выполняя трассировку на уровне ядра, вне самой программы. Он может перехватывать все сетевые вызовы, системные вызовы и события ввода-вывода, обеспечивая полную наблюдаемость без изменения кода Go. По сути, он видит всё, что может скрывать вшитый двоичный код Go. Читать дальше.
❗️ Статья на medium.com
Go компилируется статически, то есть весь код и библиотеки встраиваются в исполняемый файл во время компиляции. Из-за этого традиционная автоматическая инструментация, основанная на динамическом подключении к функциям во время выполнения, не работает нормально. В отличие от таких языков, как Python или JavaScript, в Go отсутствуют хуки во время выполнения для перехвата вызовов библиотек, поэтому разработчикам обычно приходится вручную добавлять трассировку и распространение контекста, что усложняет инструментацию и повышает вероятность ошибок.
Инструментарий eBPF решает эту проблему, выполняя трассировку на уровне ядра, вне самой программы. Он может перехватывать все сетевые вызовы, системные вызовы и события ввода-вывода, обеспечивая полную наблюдаемость без изменения кода Go. По сути, он видит всё, что может скрывать вшитый двоичный код Go. Читать дальше.
❗️ Статья на medium.com
🔥7👍1👎1
Postmortem без обвинений: Миф или реальность?
Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды.
Статистика, которая отрезвляет:
🚀 85% проблем в production — системные, а не человеческие ошибки (Google SRE)
🚀 94% инцидентов имеют множественные причины (STELLA Report)
🚀 Команды с культурой обвинений имеют в 3 раза больше повторных инцидентов
Читать дальше на Хабре
Человеческий мозг эволюционировал для выживания в саванне, а не для анализа распределенных систем. Когда что-то идет не так, наш древний мозг кричит: "Найди угрозу! Накажи виновного! Защити племя!" Эта реакция спасала наших предков от саблезубых тигров, но разрушает современные инженерные команды.
Статистика, которая отрезвляет:
🚀 85% проблем в production — системные, а не человеческие ошибки (Google SRE)
🚀 94% инцидентов имеют множественные причины (STELLA Report)
🚀 Команды с культурой обвинений имеют в 3 раза больше повторных инцидентов
Читать дальше на Хабре
🔥10👍4❤2
Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз
В этой статье автор делится практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.
Репыч Uptrace на Гитхабе
В этой статье автор делится практическим опытом внедрения Uptrace v2.0 — от разворачивания до оптимизации запросов. С цифрами, кодом и реальными кейсами.
Репыч Uptrace на Гитхабе
🔥11❤1👍1
5 трюков в bash, которые сделают вас лучшим SRE
При отладке проблемы в боевой среде каждая секунда на счету. Хотя, большинство инженеров знают основной bash-команды, разница между джуном и синьором SRE часто заключается в знании этих мощных, но малоизвестных bash-функций, которые могут превратить 30-минутный поиск проблемы в 5-минутную легкую прогулку. Действительно, полезные советы
При отладке проблемы в боевой среде каждая секунда на счету. Хотя, большинство инженеров знают основной bash-команды, разница между джуном и синьором SRE часто заключается в знании этих мощных, но малоизвестных bash-функций, которые могут превратить 30-минутный поиск проблемы в 5-минутную легкую прогулку. Действительно, полезные советы
Teletype
5 трюков в bash, которые сделают вас лучшим SRE
Перевод сделан специально для телеграм-канала Мониторим ИТ.
🔥14👍6👎5
pg_expecto: Аудит производительности инфраструктуры при нагрузочном тестировании СУБД PostgreSQL
В этой статье мы рассмотрено, как расширение pg_expecto объединяет метрики инфраструктуры и PostgreSQL в едином месте. Вы узнаете как превратить разрозненные данные в целостную картину. Читать на Хабре.
В этой статье мы рассмотрено, как расширение pg_expecto объединяет метрики инфраструктуры и PostgreSQL в едином месте. Вы узнаете как превратить разрозненные данные в целостную картину. Читать на Хабре.
🔥6👎4👍1
Why I recommend native Prometheus instrumentation over OpenTelemetry
Учитывая хайп вокруг OpenTelemetry (OTel), может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования приложений. В некоторых ситуациях стоит использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если вы хотите получить наилучший опыт мониторинга. В этой статье рассмотрены причины такого подхода.
Учитывая хайп вокруг OpenTelemetry (OTel), может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования приложений. В некоторых ситуациях стоит использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если вы хотите получить наилучший опыт мониторинга. В этой статье рассмотрены причины такого подхода.
🔥7❤3👍2
Пример настройки стека мониторинга: Prometheus, Loki, Grafana, Promtail и Tempo
Наблюдаемость — это уже не роскошь, а необходимость. В этой статье рассказано, как настроить полноценный стек мониторинга с открытым исходным кодом для приложения на базе Node.js (NestJS) с использованием Prometheus, Loki, Grafana, Promtail и Tempo. В итоге вы получите полную observability-модель: метрики, логи и трассировки — всё на одном дашборде.
Наблюдаемость — это уже не роскошь, а необходимость. В этой статье рассказано, как настроить полноценный стек мониторинга с открытым исходным кодом для приложения на базе Node.js (NestJS) с использованием Prometheus, Loki, Grafana, Promtail и Tempo. В итоге вы получите полную observability-модель: метрики, логи и трассировки — всё на одном дашборде.
🔥7👎6
On-call ротация без выгорания
«Я уволился из своей первой работы SRE‑инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять «по‑настоящему», потому что «горячий фикс же работает». На восьмое утро я пришел в офис и положил заявление на стол.
Это было пять лет назад. С тех пор я прошел через четыре компании, построил on‑call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on‑call ротацию, которая не приведет к массовым увольнениям.» Читать дальше на Хабре.
«Я уволился из своей первой работы SRE‑инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять «по‑настоящему», потому что «горячий фикс же работает». На восьмое утро я пришел в офис и положил заявление на стол.
Это было пять лет назад. С тех пор я прошел через четыре компании, построил on‑call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on‑call ротацию, которая не приведет к массовым увольнениям.» Читать дальше на Хабре.
🔥13👎6👍5❤1
Величие и нищета Виктории и Прометея
«Итак, у меня был сервис. Обычная молотилка данных, каждый с такой хотя бы раз да сталкивался - что-то на входе, что-то на выходе, а внутри походы в базу, HTTP-вызовы, шаблоны, скриптовая логика... В общем, много всякого.
Ну, ладно, тут стоит сразу уточнить, что сервис с особенностями - молотилка данных устроена так, что пытается работать с разными форматами на входе и выходе, а внутри держать всё в одном представлении. Но вот из-за этой потребности работать с разным, внутреннее представление это - мапы, слайсы, мапы в слайсах, слайсы в мапах, да ещё и из всех щелей торчит куча метрик.
Беглый поиск привел к пакету https://github.com/VictoriaMetrics/metrics от авторов VictoriaMetrics - то, что в конечном итоге привело к написанию этой статьи. В любой инфраструктуре, с которой мне приходилось работать, Виктория всегда занимала почётное место Главного Хранилища Метрик, посему решено - время щупать новую библиотеку. Читать дальше на Хабре.
«Итак, у меня был сервис. Обычная молотилка данных, каждый с такой хотя бы раз да сталкивался - что-то на входе, что-то на выходе, а внутри походы в базу, HTTP-вызовы, шаблоны, скриптовая логика... В общем, много всякого.
Ну, ладно, тут стоит сразу уточнить, что сервис с особенностями - молотилка данных устроена так, что пытается работать с разными форматами на входе и выходе, а внутри держать всё в одном представлении. Но вот из-за этой потребности работать с разным, внутреннее представление это - мапы, слайсы, мапы в слайсах, слайсы в мапах, да ещё и из всех щелей торчит куча метрик.
Беглый поиск привел к пакету https://github.com/VictoriaMetrics/metrics от авторов VictoriaMetrics - то, что в конечном итоге привело к написанию этой статьи. В любой инфраструктуре, с которой мне приходилось работать, Виктория всегда занимала почётное место Главного Хранилища Метрик, посему решено - время щупать новую библиотеку. Читать дальше на Хабре.
🔥10👍3❤1
Observability vs Monitoring: за что вы платите?
Интересный разбор того, за что вы платите при выборе системы мониторинга. Кажется, написано от первого лица.
«Мы начинали как стартап с 10 серверами. Поставили Prometheus + Grafana + ELK. Бесплатно! Ну, почти бесплатно — нужны были серверы для запуска. $500 в месяц за инфраструктуру. Красота!
Потом мы выросли до 100 серверов. ELK начал требовать уже 5 нод для нормальной работы. Prometheus нужен был federation для сбора метрик. Появился dedicated инженер, который этим занимался. $5,000 за инфраструктуру + $10,000 за инженера = $15,000 в месяц. Уже не так весело.
На 500 серверах self-hosted решение превратилось в отдельный проект. Три инженера фултайм занимались только поддержкой мониторинга. Апгрейды, траблшутинг, оптимизация. $50,000 в месяц только на зарплаты. Плюс инфраструктура. Плюс то, что эти инженеры не делали продукт.»
Интересный разбор того, за что вы платите при выборе системы мониторинга. Кажется, написано от первого лица.
«Мы начинали как стартап с 10 серверами. Поставили Prometheus + Grafana + ELK. Бесплатно! Ну, почти бесплатно — нужны были серверы для запуска. $500 в месяц за инфраструктуру. Красота!
Потом мы выросли до 100 серверов. ELK начал требовать уже 5 нод для нормальной работы. Prometheus нужен был federation для сбора метрик. Появился dedicated инженер, который этим занимался. $5,000 за инфраструктуру + $10,000 за инженера = $15,000 в месяц. Уже не так весело.
На 500 серверах self-hosted решение превратилось в отдельный проект. Три инженера фултайм занимались только поддержкой мониторинга. Апгрейды, траблшутинг, оптимизация. $50,000 в месяц только на зарплаты. Плюс инфраструктура. Плюс то, что эти инженеры не делали продукт.»
🔥10👍8👎2
Дашборды: между красотой и эффективностью
В современном мире дашборды стали неотъемлемой частью любого бизнеса. Однако часто мы сталкиваемся с тем, что красивые, но бесполезные панели данных не приносят реальной пользы. В этой статье разбираются основные проблемы создания дашбордов и посмотрим, как их решить на практике (на примере Apache Superset).
В современном мире дашборды стали неотъемлемой частью любого бизнеса. Однако часто мы сталкиваемся с тем, что красивые, но бесполезные панели данных не приносят реальной пользы. В этой статье разбираются основные проблемы создания дашбордов и посмотрим, как их решить на практике (на примере Apache Superset).
🔥8👍2
sql-to-logsql
Веб-приложение, предоставляющее пользовательский интерфейс для запросов к данным VictoriaLogs или VictoriaTraces с помощью SQL.
Он позволяет писать SQL-запросы к данным логов и мгновенно преобразовывать их в запросы VictoriaLogs LogsQL. При необходимости он может выполнять полученные запросы LogsQL в VictoriaLogs и управлять представлениями, хранящимися на диске.
Репыч на Гитхаб
@monitorim_it
Веб-приложение, предоставляющее пользовательский интерфейс для запросов к данным VictoriaLogs или VictoriaTraces с помощью SQL.
Он позволяет писать SQL-запросы к данным логов и мгновенно преобразовывать их в запросы VictoriaLogs LogsQL. При необходимости он может выполнять полученные запросы LogsQL в VictoriaLogs и управлять представлениями, хранящимися на диске.
Репыч на Гитхаб
@monitorim_it
🔥13👍5🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
gdg
Grafana Dash-n-Grab (GDG) — простой в использовании интерфейс командной строки (CLI) для взаимодействия с API Grafana, позволяющим создавать резервные копии и восстанавливать дашборды, датасорсы и другие ресурсы.
Репыч на Гитхаб
@monitorim_it
Grafana Dash-n-Grab (GDG) — простой в использовании интерфейс командной строки (CLI) для взаимодействия с API Grafana, позволяющим создавать резервные копии и восстанавливать дашборды, датасорсы и другие ресурсы.
Репыч на Гитхаб
@monitorim_it
🔥15👍8
runtime-radar
Это решение с открытым исходным кодом для мониторинга событий безопасности в контейнерных средах.
Репыч на Гитхаб
@monitorim_it
Это решение с открытым исходным кодом для мониторинга событий безопасности в контейнерных средах.
Репыч на Гитхаб
@monitorim_it
🔥13👍2
🔥6👍2
На этом скриншоте вы видите сервисно-ресурсную модель интернет-магазина. А также пару проблем на фронтэнд и кэш-сервере. Решение нативно встраивается в Zabbix и позволяет отслеживать здоровье компонентов любого сервиса: интернет-банк, интеграции с внешними системами, порталы и т.д. и т.п.
Вам больше не придется искать сторонние решения для визуализации структуры сервисов. Называется оно IntelliTrend Advanced Services. О нём (и не только о нём) расскажет на вебинаре 11 ноября специально приглашенный гость.
А уже завтра, 5 ноября, Галс Софтвэр приглашает вас принять участие в вебинаре Структура базы данных Zabbix: что там под капотом. Начало в 11 мск 5 ноября. Этот вебинар уже анонсирован и регистрация на него открыта. Приходите!
Анонсы всех мероприятий по Zabbix и другую полезную информацию вы можете отслеживать в канале @zabbix_ru. Кстати, вчера там вышел пост со ссылками на 12 переводов статей по работе с Zabbix.
Вам больше не придется искать сторонние решения для визуализации структуры сервисов. Называется оно IntelliTrend Advanced Services. О нём (и не только о нём) расскажет на вебинаре 11 ноября специально приглашенный гость.
А уже завтра, 5 ноября, Галс Софтвэр приглашает вас принять участие в вебинаре Структура базы данных Zabbix: что там под капотом. Начало в 11 мск 5 ноября. Этот вебинар уже анонсирован и регистрация на него открыта. Приходите!
Анонсы всех мероприятий по Zabbix и другую полезную информацию вы можете отслеживать в канале @zabbix_ru. Кстати, вчера там вышел пост со ссылками на 12 переводов статей по работе с Zabbix.
🔥10👍2👎2🤔2
Масштабирование: создание платформы Prometheus + Loki производительностью 100 ТБ/день
Масштабирование окружения для наблюдаемости до 100 ТБ/день требует тщательного планирования и постепенных улучшений. В этой статье рассматриваются десять методов с объяснениями, диаграммами ASCII и фрагментами кода, которые помогут спроектировать, развернуть и эксплуатировать высоконагруженный стек наблюдаемости Prometheus и Loki, обеспечивающий бесперебойную обработку метрик и логов даже при большой нагрузке. Читать дальше.
Масштабирование окружения для наблюдаемости до 100 ТБ/день требует тщательного планирования и постепенных улучшений. В этой статье рассматриваются десять методов с объяснениями, диаграммами ASCII и фрагментами кода, которые помогут спроектировать, развернуть и эксплуатировать высоконагруженный стек наблюдаемости Prometheus и Loki, обеспечивающий бесперебойную обработку метрик и логов даже при большой нагрузке. Читать дальше.
🔥8👍6👎1
Поприветствуйте Observability 3.0
Если вы разработчик, SRE или инженер DevOps, вам интересно, что все это значит и с чего начать, то эта статья станет введением для новичков в эволюцию наблюдаемости — от версии 1.0 до сегодняшнего более интеллектуального, экономически обоснованного выбора.
P.S. В конце статьи приводятся две коммерческие системы, но у них есть вполне себе открыты аналоги.
Если вы разработчик, SRE или инженер DevOps, вам интересно, что все это значит и с чего начать, то эта статья станет введением для новичков в эволюцию наблюдаемости — от версии 1.0 до сегодняшнего более интеллектуального, экономически обоснованного выбора.
P.S. В конце статьи приводятся две коммерческие системы, но у них есть вполне себе открыты аналоги.
👍8🔥7
🔥12👍3