Dev0ps
40 subscribers
211 photos
3 videos
50 files
3.33K links
Download Telegram
Forwarded from DevOps&SRE Library
A different and (often) better way to downsample your Prometheus metrics

https://blog.timescale.com/blog/a-different-and-often-better-way-to-downsample-your-prometheus-metrics
Forwarded from Мониторим ИТ
PostgreSQL Monitoring for App Developers: Alerts & Troubleshooting

If you choose only one thing to alert on in your PostgreSQL cluster (and as I hope this article makes clear, you should alert on multiple things), it should be availability. If your application is unable to connect or transaction with your database, you're probably in for a bad day. Читать дальше.
📟 Save your engineers' sleep: best practices for on-call processes. Собственно, из названия всё понятно - полезные советы для организации on-call процесса здорового человека.

#напочитать #support #oncall
Время от времени спрашивают как делать приложения, чтобы при падении Кафки приложение не падало. Мне вспомнилась статья Jakub Korab как раз где он разбирается в различных подходах к решению этой задачи.

https://www.confluent.io/blog/how-to-survive-a-kafka-outage/
Forwarded from Updates rtfm.co.ua 🇺🇦 (rtfmcoua)
Prometheus: Recording Rules и теги – разделяем алерты в Slack

С 2018 года используем Opsgenie, который получает алерты от Prometheus, CloudWatch и Uptrends, которые потом через Slack-интеграцию отправляет нам в Slack. Интеграции Slack на данный момент выглядят так: В каждой из них настроен фильтр по уровню важности, например интеграция P1, P2 > Slack #devops-alarms-warning: Но есть проблема: так как каналы получаются общие, то все алерты…

https://rtfm.co.ua/prometheus-recording-rules-i-tegi-razdelyaem-alerty-v-slack/
🔧 Sanoid - система управления ZFS снапшотами в Linux, которая, работая вместе с KVM, позволяет развернуть снапшот и восстановить работу виртуального сервера одной командой (собственно, как и любой другой правильный подход работы со снапшотами).

https://github.com/jimsalterjrs/sanoid

#zfs #backup #напочитать
Forwarded from DevOps&SRE Library
Effective IAM for Amazon Web Services

Effective IAM for Amazon Web Services is for Cloud engineers who design, develop, and review AWS IAM security policies in their daily work.

If you're struggling to deliver effective AWS security policies, this guide will help you understand why it's hard and how both you and your organization can use IAM well.

The AWS IAM documentation tells you what you can do. This guide will show you how to scale IAM best practices to all developers.

https://www.effectiveiam.com