Почему SRE приносит пользу командам и клиентам
SRE объединяет группы разработчиков программного обеспечения и эксплуатации, которые помогают создавать надежные, отказоустойчивые и масштабируемые системы. В этой статье-переводе некоторые подробности этой методологии. Читать дальше.
SRE объединяет группы разработчиков программного обеспечения и эксплуатации, которые помогают создавать надежные, отказоустойчивые и масштабируемые системы. В этой статье-переводе некоторые подробности этой методологии. Читать дальше.
👍4❤1🔥1
Логирование в Kubernetes: гайд как сохранить рассудок в море данных
Логирование — один из трех столпов observability в распределенных системах. Мы видим, как растут популярные продукты с открытым исходным кодом (например, ELK-стек) и зрелые коммерческие продукты (например, Splunk) для ведения логирования в больших масштабах. Однако в такой сложной системе, как Kubernetes, логирование остается серьезной проблемой. Она усугубляется с ростом данных и широким внедрением контейнерной системы.
В этой статье рассмотрены различные типы логов Kubernetes, необходимые для observability, а также подходы к сбору, объединению и анализу этих логов в Kubernetes. Затем мы представим решение с открытым исходным кодом, использующее fluentd и fluentbit, чтобы упростить ведение логов. Читать дальше.
Логирование — один из трех столпов observability в распределенных системах. Мы видим, как растут популярные продукты с открытым исходным кодом (например, ELK-стек) и зрелые коммерческие продукты (например, Splunk) для ведения логирования в больших масштабах. Однако в такой сложной системе, как Kubernetes, логирование остается серьезной проблемой. Она усугубляется с ростом данных и широким внедрением контейнерной системы.
В этой статье рассмотрены различные типы логов Kubernetes, необходимые для observability, а также подходы к сбору, объединению и анализу этих логов в Kubernetes. Затем мы представим решение с открытым исходным кодом, использующее fluentd и fluentbit, чтобы упростить ведение логов. Читать дальше.
🔥3👍2❤1
Мониторинг активности пользователей OpenVPN при помощи Python
«Был у нас сервер OpenVPN, на котором скриптом собирались логи активности пользователей. Сервер заменили на новый, улучшенный, более безопасный и с несколько другой архитектурой работы. Сначала логи активности пользователей предполагали собирать тем же скриптом, но он наотрез отказался работать в новой инсталляции из-за ряда изменений в конфигурации сервера. Потребовалось новое решение, в пользу которого было и то, что изначальный скрипт формировал данные для отправки в базу InfluxDB, которая также планируется к выводу из эксплуатации. В связи с этим я решил разработать новый механизм, который будет готовить данные для нашей системы мониторинга — Zabbix.» Читать статью.
«Был у нас сервер OpenVPN, на котором скриптом собирались логи активности пользователей. Сервер заменили на новый, улучшенный, более безопасный и с несколько другой архитектурой работы. Сначала логи активности пользователей предполагали собирать тем же скриптом, но он наотрез отказался работать в новой инсталляции из-за ряда изменений в конфигурации сервера. Потребовалось новое решение, в пользу которого было и то, что изначальный скрипт формировал данные для отправки в базу InfluxDB, которая также планируется к выводу из эксплуатации. В связи с этим я решил разработать новый механизм, который будет готовить данные для нашей системы мониторинга — Zabbix.» Читать статью.
👍2
Трейсим .NET микросервисы через OpenTelemetry
В этой статье описано подключение OpenTelemetry в ASP.NET Core проект + некоторые варианты его использования. Читать дальше.
В этой статье описано подключение OpenTelemetry в ASP.NET Core проект + некоторые варианты его использования. Читать дальше.
👍2
Как мы подключали распределенную трассировку через (внезапно) Sentry
Статья будет полезна для тех, кто уже использует Sentry, водится с микросервисами, но еще не пришел к распределенной трассировке, и скорее для небольших, средних или только начинающихся проектов. Если ваш проект уже большой и нагруженный, у вас и так все это настроено и на совсем другом стеке. Читать дальше.
Статья будет полезна для тех, кто уже использует Sentry, водится с микросервисами, но еще не пришел к распределенной трассировке, и скорее для небольших, средних или только начинающихся проектов. Если ваш проект уже большой и нагруженный, у вас и так все это настроено и на совсем другом стеке. Читать дальше.
👍3
promlens
Утилита с веб-интерфейсом для создания запросов, их анализа и визуализации.
Репыч на Гитхабе.
Утилита с веб-интерфейсом для создания запросов, их анализа и визуализации.
Репыч на Гитхабе.
👍6
Breaking the memory barrier: How Grafana Mimir's store-gateway overcame out-of-memory errors
В этой статье разработчики Mimir рассказывают как оптимизируют утилизацию оперативной памяти на серверах с установленным движком Mimir. Читать дальше.
Также рекомендую другую прошлогоднюю статью: How we improved Grafana Mimir query performance by up to 10x
В этой статье разработчики Mimir рассказывают как оптимизируют утилизацию оперативной памяти на серверах с установленным движком Mimir. Читать дальше.
Также рекомендую другую прошлогоднюю статью: How we improved Grafana Mimir query performance by up to 10x
👍2
A complete guide to managing Grafana as code: tools, tips, and tricks
В этой статье представлены несколько инструментов, которые можно использовать для декларативного управления ресурсами Grafana, а также советы и рекомендации по их эффективному применению при различных сценариях использования. Будут рассмотрены: Terraform, Ansible, Grafonnet для дашбордов, Grizzly, Grafana APIs с GitHub Actions и Crossplane. Читать дальше.
В этой статье представлены несколько инструментов, которые можно использовать для декларативного управления ресурсами Grafana, а также советы и рекомендации по их эффективному применению при различных сценариях использования. Будут рассмотрены: Terraform, Ansible, Grafonnet для дашбордов, Grizzly, Grafana APIs с GitHub Actions и Crossplane. Читать дальше.
👍10🤔1
cdebug — нож швейцарской армии для дебага контейнеров
При помощи этого инструмента вы можете:
⚡️Траблшутить неполадки в контейнерах, для которых нет оболочки и/или инструментов отладки
⚡️Перенаправлять неопубликованные или даже локальные порты на хост-систему
⚡️Открывать конечные точки из хост-системы для контейнеров и сетей Kubernetes
⚡️Удобно экспортировать файловую систему образа и/или контейнера в локальные папки
⚡️и многое другое
Репыч на Гитхабе.
Расскажите в комментариях как дебажите контейнеры.
При помощи этого инструмента вы можете:
⚡️Траблшутить неполадки в контейнерах, для которых нет оболочки и/или инструментов отладки
⚡️Перенаправлять неопубликованные или даже локальные порты на хост-систему
⚡️Открывать конечные точки из хост-системы для контейнеров и сетей Kubernetes
⚡️Удобно экспортировать файловую систему образа и/или контейнера в локальные папки
⚡️и многое другое
Репыч на Гитхабе.
Расскажите в комментариях как дебажите контейнеры.
🔥10👍2❤1
How we tried using VictoriaMetrics and Thanos at the same time
В этой статье разобраны несколько способов оптимизации систем хранения для Prometheus. Читать дальше.
❗️Статья на Медиум, возможно, нужен VPN.
В этой статье разобраны несколько способов оптимизации систем хранения для Prometheus. Читать дальше.
❗️Статья на Медиум, возможно, нужен VPN.
👍1
How to Monitor Kubernetes API Server
В этой статье будут разобраны следующие темы:
⚡️Что такое API-сервер Kubernetes?
⚡️Как выполнять мониторинг API-сервера Kubernetes
⚡️Мониторинг API-сервера: Какие метрики следует проверять?
⚡️Заключение
Читать дальше
В этой статье будут разобраны следующие темы:
⚡️Что такое API-сервер Kubernetes?
⚡️Как выполнять мониторинг API-сервера Kubernetes
⚡️Мониторинг API-сервера: Какие метрики следует проверять?
⚡️Заключение
Читать дальше
👍3🔥2
How to Build Software like an SRE
В статье разобраны подходы к созданию приложений с учетом дальнейшей эффективной эксплуатацией SRE-инженерами. Читать статью.
В статье разобраны подходы к созданию приложений с учетом дальнейшей эффективной эксплуатацией SRE-инженерами. Читать статью.
👍5
Yandex Infrastructure Meetup
🗓 13 июля в Казани пройдёт офлайн-митап Yandex Infrastructure.
На расскажут, как мы создаётся и развивается платформа для разработчиков Яндекса. Поговорят про устройство сети Yandex Cloud, про вычислительную платформу Яндекса Nirvana и технологию SRv6.
Митап будет полезен backend-разработчикам, DevOps, SRE и сетевым инженерам, а также всем тем, кому интересны продукты open source.
➡️ Участие бесплатное.
Регистрируйтесь по ссылке.
🗓 13 июля в Казани пройдёт офлайн-митап Yandex Infrastructure.
На расскажут, как мы создаётся и развивается платформа для разработчиков Яндекса. Поговорят про устройство сети Yandex Cloud, про вычислительную платформу Яндекса Nirvana и технологию SRv6.
Митап будет полезен backend-разработчикам, DevOps, SRE и сетевым инженерам, а также всем тем, кому интересны продукты open source.
➡️ Участие бесплатное.
Регистрируйтесь по ссылке.
❤1
What every SRE should know about GNU/Linux shell related internals: file descriptors, pipes, terminals, user sessions, process groups and daemons
Ключевые вещи, которые должен знать SRE для качественной поддержки приложений, развернутых на Linux. Подробная статья с примерами. Читать статью.
Ключевые вещи, которые должен знать SRE для качественной поддержки приложений, развернутых на Linux. Подробная статья с примерами. Читать статью.
👍8🔥1
scrutiny
Утилита с веб-интерфейсом для мониторинга S.M.A.R.T. Возможности:
⚡️Веб-дашборд
⚡️Интеграция с демоном smartd
⚡️Автообнаружение подключенных жестких дисков
⚡️Трекинг исторических метрик S.M.A.R.T.
⚡️Настраиваемые пороги срабатывания
⚡️Отслеживание температуры
⚡️Поставляется в виде docker-образа
⚡️Отправка алертов через вебхуки
Репыч на Гитхабе.
Утилита с веб-интерфейсом для мониторинга S.M.A.R.T. Возможности:
⚡️Веб-дашборд
⚡️Интеграция с демоном smartd
⚡️Автообнаружение подключенных жестких дисков
⚡️Трекинг исторических метрик S.M.A.R.T.
⚡️Настраиваемые пороги срабатывания
⚡️Отслеживание температуры
⚡️Поставляется в виде docker-образа
⚡️Отправка алертов через вебхуки
Репыч на Гитхабе.
👍10
Monitoring our monitoring: how we validate our Prometheus alert rules
Статья из блога Cloudflare. Рассказывает как они работают с правилами для алертов из Prometheus. Читать статью.
Статья из блога Cloudflare. Рассказывает как они работают с правилами для алертов из Prometheus. Читать статью.
👍3
Distributed Tracing in Rust
Как реализовать распределенную трассировку между несколькими сервисами с помощью actix, rabbitmq (lapin), tracing и opentelemetry. Читать статью.
Как реализовать распределенную трассировку между несколькими сервисами с помощью actix, rabbitmq (lapin), tracing и opentelemetry. Читать статью.
👍2
Forwarded from /usr/bin
robusta
Robusta — это одновременно и инструмент автоматизации для Kubernetes, и платформа для многокластерной наблюдаемости.
Robusta обычно используется вместе с Prometheus, но поддерживаются и другие инструменты. Прослушивая все события в кластере, Robusta скажет, почему сработали оповещения, что произошло в это время и что вы можете с этим сделать. Robusta также может улучшить существующие оповещения и использоваться для создания новых оповещений.
Репыч на Гитхабе.
Robusta — это одновременно и инструмент автоматизации для Kubernetes, и платформа для многокластерной наблюдаемости.
Robusta обычно используется вместе с Prometheus, но поддерживаются и другие инструменты. Прослушивая все события в кластере, Robusta скажет, почему сработали оповещения, что произошло в это время и что вы можете с этим сделать. Robusta также может улучшить существующие оповещения и использоваться для создания новых оповещений.
Репыч на Гитхабе.
👍5
goaccess
GoAccess — это анализатор веб-журналов в реальном времени и интерактивный просмотрщик, работающий в терминале на *nix-системах или через браузер. Он предоставляет HTTP-статистику для системных администраторов, которым нужен визуальный отчет о работе сервера "на лету".
Репыч на Гитхабе.
GoAccess — это анализатор веб-журналов в реальном времени и интерактивный просмотрщик, работающий в терминале на *nix-системах или через браузер. Он предоставляет HTTP-статистику для системных администраторов, которым нужен визуальный отчет о работе сервера "на лету".
Репыч на Гитхабе.
👍18
Can We Stop With Those Horrible “System Overview” Dashboards Already?
На часах 2 часа ночи, вы не спите, ваш телефон постоянно звонит по поводу проблем на проде. Вы смотрите на бесконечный дашборд «Обзор системы», прокручивая вверх и вниз десятки графиков, показывающих различные метрики и SLI — некоторые вы видели раньше, некоторые совершенно новые, некоторые вообще не работают. Некоторые графики растут, некоторые падают, в целом всё выглядит загадочно.
В этой статье автор объясняет, почему дашборд «Обзор системы» приносит больше вреда, чем пользы. А если вы все же решили его использовать — объяснит как это делать немного по-другому.
Читать статью.
❗️Статья на Медиум, возможно, нужен VPN.
На часах 2 часа ночи, вы не спите, ваш телефон постоянно звонит по поводу проблем на проде. Вы смотрите на бесконечный дашборд «Обзор системы», прокручивая вверх и вниз десятки графиков, показывающих различные метрики и SLI — некоторые вы видели раньше, некоторые совершенно новые, некоторые вообще не работают. Некоторые графики растут, некоторые падают, в целом всё выглядит загадочно.
В этой статье автор объясняет, почему дашборд «Обзор системы» приносит больше вреда, чем пользы. А если вы все же решили его использовать — объяснит как это делать немного по-другому.
Читать статью.
❗️Статья на Медиум, возможно, нужен VPN.
👍7👎1
goreplay
GoReplay — это инструмент сетевого мониторинга с открытым исходным кодом, позволяющий записывать трафик в реальном времени и записывать его для нагрузочного тестирования, мониторинга и детального анализа.
Репыч на Гитхабе.
GoReplay — это инструмент сетевого мониторинга с открытым исходным кодом, позволяющий записывать трафик в реальном времени и записывать его для нагрузочного тестирования, мониторинга и детального анализа.
Репыч на Гитхабе.
👍4