Записки админа
12.5K subscribers
631 photos
28 videos
221 files
2.39K links
Пишу о Linux и администрировании серверов.

Связаться с автором: @servers

Заметки в браузере: https://sysadmin.pm/

Буст канала: https://tttttt.me/sysadminnotes?boost
Download Telegram
👨🏼‍💻 Случайные истории людей, работающих в SRE. Для чтения за кофейком или за обедом, например...

https://www.srestories.dev/archive

#sre #напочитать
📺 Why Is My App SLOw? Defining Reliability in Platform Engineering • Jez Humble • GOTO 2023

Понравился доклад. Он о том, как инженеры Google строят процессы так, что о проблемах на платформе узнают быстрее чем пользователи заметят это. Там же про регрессии, их отслеживание, SLO и много всего интересного, на мой взгляд.

В комментарии закину ссылки на плейлисты конференций GOTO, вдруг что-то ещё для себя интересное найдёте...

#sre #видео #perf
Incident post-mortem template.docx
287.7 KB
А вот тут простейший шаблон для оформления инцидента. Наткнулся на него вот в этой статье...

https://incident.io/blog/incident-post-mortem-template

#sre #postmortem #incident
🗜И ещё немного про реагирование на инциденты и работу команды при этом - A guide to running Incident Command.

Что делать команде, в случае какого-либо инцидента, что делать координатору (Incident Commander), как можно построить процесс работы над инцидентом в принципе.

#sre #напочитать #incident
statuspages101.pdf
2.2 MB
Пара статей с рекомендациями по созданию статус-страниц для инцидентов...

- Status Pages 101: How to Create a Status Page You and Your Customers Will Actually Want to Use.
- Your guide to better incident status pages.

#sre #incident #statuspage
⌚️ Service Level Calculator - SLI калькулятор прямо в браузере. Автор презентовал его в отдельной статье - Introducing Service Level Calculator. PDF со статьёй закину в комментарии к сообщению.

#sla #sre #напочитать
⚙️ Бывало ли у вас такое - вы пользуетесь каким-то сервисом (или видите как ваши друзья, дети, родители пользуются им), и на секунду вы задумываетесь, а как оно работает, как оно спроектировано под капотом? Здорово, если сервис ведёт какой-то технический блог, в котором делится своими рабочими процессами.

Вот, например, статья о том, как проектируется инфраструктура Roblox - How We’re Making Roblox’s Infrastructure More Efficient and Resilient. Не то что бы там раскрывают какие-то тайны и секреты, но почитать всё равно интересно.

#напочитать #infra #sre
9️⃣ Rule of 10x per 9 - ещё раз о девятках в SLO, и о том, что каждая 9, конечно же, подразумевает увеличение надёжности и доступности системы, но в то же время, увеличивает стоимость всего происходящего в 10 раз.

#sre #slo #напочитать
🧷 4 Instructive Postmortems on Data Downtime and Loss - четыре разных истории и четыре разных postmortem для инцидентов (потеря данных, проблемы с доступностью и всё вот это вот). На странице по ссылке краткий пересказ каждого из случаев и там же ссылки на полные отчёты от компаний.

P. S. Ссылка на описание инцидента в Gitlab у меня возвращает 404 почему-то, так что закинул PDF с этой страницей в комментарии.

#sre #postmortem #напочитать
⚙️ Linux Crisis Tools - утилиты, которые окажутся полезны, когда инцидент на сервере уже случился. Брендан Грегг в своей статье рекомендует установить их заранее...

https://www.brendangregg.com/blog/2024-03-24/linux-crisis-tools.html

#tools #sre #напочитать
📊 SLA vs SLO vs SLI: What’s the Difference? Чем эти ваши SL* друг от друга отличаются, когда каждая из метрик используется...

https://www.checklyhq.com/blog/sla-slo-sli/

#sre #sla #напочитать
📊 И вот ещё для чтения перед сном, объяснение использования метрик SLO, SLI, Toli и так называемого "Error Budget" - Don’t Get Lost in the Metrics Maze: A Practical Guide to SLOs, SLIs, Error Budgets, and Toil.

https://medium.com/@lokesh12/dont-get-lost-in-the-metrics-maze-a-practical-guide-to-slos-slis-error-budgets-and-toil-939ecd0181eb

#sre #metrics #напочитать
Why didn't you status? Занятный взгляд на организацию statuspage. Что стоит учитывать при организации страницы со статусами сервисов, и как не сделать хуже, создавая такой ресурс...

https://hross.substack.com/p/why-didnt-you-status

#statuspage #sre #напочитать
🔋 Занятный тред на Reddit, где участники сообщества накидали разных советов SRE инженеру, выложившему свою резюме для ревью и отзывов...

https://www.reddit.com/r/sre/comments/1dgwy5b/senior_sre_looking_for_a_resume_review_out_of/

#sre #hr #напочитать
💣 Почему бы в пятницу не грохнуть часть инфраструктуры своего прода и посмотреть как пойдут дела?

- Deploy on Friday? How About Destroy on Friday! A Chaos Engineering Experiment - Part 1;
- Destroy on Friday: The Big Day. A Chaos Engineering Experiment - Part 2.

#sre #напочитать
SERVICE-LEVEL-AGREEMENT-TEMPLATE.pdf
61.8 KB
📄 Service Level Agreement (SLA) - что такое SLA, каким оно бывает и что может в себя включать...

https://uptimerobot.com/blog/what-is-an-sla/

В pdf файле пример оформления SLA с клиентом.

#sre #sla #напочитать
This media is not supported in your browser
VIEW IN TELEGRAM
📞 Building On-call: Our observability strategy - материал, конечно, основан на работе самого incident.io, но всё равно интересно почитать о том, как они строят процесс наблюдения, сбора, отображения и обработки данных о системах, которые требуют внимания и для которых может потребоваться реагирование, в случае возникновения инцидента...

https://incident.io/hubs/building-on-call/building-on-call-our-observability-strategy

#sre #oncall #напочитать
📞 What I tell people new to on-call - автор статьи делится опытом и даёт советы тем, кому предстоит столкнуться с on-call дежурствами в своей работе...

https://ntietz.com/blog/what-i-tell-people-new-to-oncall/

#oncall #sre #напочитать
💭 What Platform Engineering Meant for Adidas’s SREs - рассказ о трансформации e-commerce в Adidas от монолита к микросервисам, и о том, с какими задачами в ходе этого процесса SRE инженерам компании пришлось столкнуться...

- Видео: https://www.youtube.com/watch?v=BBwMkC7a8Ko
- Текстом: https://thenewstack.io/what-platform-engineering-meant-for-adidass-sres/

#sre #видео