👨🏼💻 Случайные истории людей, работающих в SRE. Для чтения за кофейком или за обедом, например...
https://www.srestories.dev/archive
#sre #напочитать
https://www.srestories.dev/archive
#sre #напочитать
📺 Why Is My App SLOw? Defining Reliability in Platform Engineering • Jez Humble • GOTO 2023
Понравился доклад. Он о том, как инженеры Google строят процессы так, что о проблемах на платформе узнают быстрее чем пользователи заметят это. Там же про регрессии, их отслеживание, SLO и много всего интересного, на мой взгляд.
В комментарии закину ссылки на плейлисты конференций GOTO, вдруг что-то ещё для себя интересное найдёте...
#sre #видео #perf
Понравился доклад. Он о том, как инженеры Google строят процессы так, что о проблемах на платформе узнают быстрее чем пользователи заметят это. Там же про регрессии, их отслеживание, SLO и много всего интересного, на мой взгляд.
В комментарии закину ссылки на плейлисты конференций GOTO, вдруг что-то ещё для себя интересное найдёте...
#sre #видео #perf
YouTube
Why Is My App SLOw? Defining Reliability in Platform Engineering • Jez Humble • GOTO 2023
This presentation was recorded at GOTO Aarhus 2023. #GOTOcon #GOTOaar
https://gotoaarhus.com
Jez Humble - SRE at Google Cloud & Lecturer at UC Berkeley @JezHumble
RESOURCES
https://continuousdelivery.com
https://github.com/jezhumble
https://linkedin.com/in/jez…
https://gotoaarhus.com
Jez Humble - SRE at Google Cloud & Lecturer at UC Berkeley @JezHumble
RESOURCES
https://continuousdelivery.com
https://github.com/jezhumble
https://linkedin.com/in/jez…
Incident post-mortem template.docx
287.7 KB
А вот тут простейший шаблон для оформления инцидента. Наткнулся на него вот в этой статье...
https://incident.io/blog/incident-post-mortem-template
#sre #postmortem #incident
https://incident.io/blog/incident-post-mortem-template
#sre #postmortem #incident
🗜И ещё немного про реагирование на инциденты и работу команды при этом - A guide to running Incident Command.
Что делать команде, в случае какого-либо инцидента, что делать координатору (Incident Commander), как можно построить процесс работы над инцидентом в принципе.
#sre #напочитать #incident
Что делать команде, в случае какого-либо инцидента, что делать координатору (Incident Commander), как можно построить процесс работы над инцидентом в принципе.
#sre #напочитать #incident
statuspages101.pdf
2.2 MB
Пара статей с рекомендациями по созданию статус-страниц для инцидентов...
- Status Pages 101: How to Create a Status Page You and Your Customers Will Actually Want to Use.
- Your guide to better incident status pages.
#sre #incident #statuspage
- Status Pages 101: How to Create a Status Page You and Your Customers Will Actually Want to Use.
- Your guide to better incident status pages.
#sre #incident #statuspage
⌚️ Service Level Calculator - SLI калькулятор прямо в браузере. Автор презентовал его в отдельной статье - Introducing Service Level Calculator. PDF со статьёй закину в комментарии к сообщению.
#sla #sre #напочитать
#sla #sre #напочитать
⚙️ Бывало ли у вас такое - вы пользуетесь каким-то сервисом (или видите как ваши друзья, дети, родители пользуются им), и на секунду вы задумываетесь, а как оно работает, как оно спроектировано под капотом? Здорово, если сервис ведёт какой-то технический блог, в котором делится своими рабочими процессами.
Вот, например, статья о том, как проектируется инфраструктура Roblox - How We’re Making Roblox’s Infrastructure More Efficient and Resilient. Не то что бы там раскрывают какие-то тайны и секреты, но почитать всё равно интересно.
#напочитать #infra #sre
Вот, например, статья о том, как проектируется инфраструктура Roblox - How We’re Making Roblox’s Infrastructure More Efficient and Resilient. Не то что бы там раскрывают какие-то тайны и секреты, но почитать всё равно интересно.
#напочитать #infra #sre
9️⃣ Rule of 10x per 9 - ещё раз о девятках в SLO, и о том, что каждая 9, конечно же, подразумевает увеличение надёжности и доступности системы, но в то же время, увеличивает стоимость всего происходящего в 10 раз.
#sre #slo #напочитать
#sre #slo #напочитать
🧷 4 Instructive Postmortems on Data Downtime and Loss - четыре разных истории и четыре разных postmortem для инцидентов (потеря данных, проблемы с доступностью и всё вот это вот). На странице по ссылке краткий пересказ каждого из случаев и там же ссылки на полные отчёты от компаний.
P. S. Ссылка на описание инцидента в Gitlab у меня возвращает 404 почему-то, так что закинул PDF с этой страницей в комментарии.
#sre #postmortem #напочитать
P. S. Ссылка на описание инцидента в Gitlab у меня возвращает 404 почему-то, так что закинул PDF с этой страницей в комментарии.
#sre #postmortem #напочитать
⚙️ Linux Crisis Tools - утилиты, которые окажутся полезны, когда инцидент на сервере уже случился. Брендан Грегг в своей статье рекомендует установить их заранее...
https://www.brendangregg.com/blog/2024-03-24/linux-crisis-tools.html
#tools #sre #напочитать
https://www.brendangregg.com/blog/2024-03-24/linux-crisis-tools.html
#tools #sre #напочитать
📊 SLA vs SLO vs SLI: What’s the Difference? Чем эти ваши SL* друг от друга отличаются, когда каждая из метрик используется...
https://www.checklyhq.com/blog/sla-slo-sli/
#sre #sla #напочитать
https://www.checklyhq.com/blog/sla-slo-sli/
#sre #sla #напочитать
Checkly
SLA vs SLO vs SLI: What’s the Difference?
Explore the distinctions between SLA, SLO and SLI. Learn about their importance, how Checkly works with them and grasp key concepts for SLAs.
📊 И вот ещё для чтения перед сном, объяснение использования метрик SLO, SLI, Toli и так называемого "Error Budget" - Don’t Get Lost in the Metrics Maze: A Practical Guide to SLOs, SLIs, Error Budgets, and Toil.
https://medium.com/@lokesh12/dont-get-lost-in-the-metrics-maze-a-practical-guide-to-slos-slis-error-budgets-and-toil-939ecd0181eb
#sre #metrics #напочитать
https://medium.com/@lokesh12/dont-get-lost-in-the-metrics-maze-a-practical-guide-to-slos-slis-error-budgets-and-toil-939ecd0181eb
#sre #metrics #напочитать
⏳ Why didn't you status? Занятный взгляд на организацию statuspage. Что стоит учитывать при организации страницы со статусами сервисов, и как не сделать хуже, создавая такой ресурс...
https://hross.substack.com/p/why-didnt-you-status
#statuspage #sre #напочитать
https://hross.substack.com/p/why-didnt-you-status
#statuspage #sre #напочитать
Записки админа
📟 Хороший материал о том, как правильно построить рабочие процессы для человека или команды, выполняющих роль on-call дежурных. Что стоит учитывать, на какие вопросы нужно ответить заранее, к чему нужно быть готовым в этой роли и в роли лидера у которого в…
📟 Building On-Call Schedules for Humans - статья о том, что стоит учитывать при построении on-call смен и связанных с ними процессов...
https://rootly.com/guides/on-call
#sre #oncall #напочитать
https://rootly.com/guides/on-call
#sre #oncall #напочитать
🔋 Занятный тред на Reddit, где участники сообщества накидали разных советов SRE инженеру, выложившему свою резюме для ревью и отзывов...
https://www.reddit.com/r/sre/comments/1dgwy5b/senior_sre_looking_for_a_resume_review_out_of/
#sre #hr #напочитать
https://www.reddit.com/r/sre/comments/1dgwy5b/senior_sre_looking_for_a_resume_review_out_of/
#sre #hr #напочитать
💣 Почему бы в пятницу не грохнуть часть инфраструктуры своего прода и посмотреть как пойдут дела?
- Deploy on Friday? How About Destroy on Friday! A Chaos Engineering Experiment - Part 1;
- Destroy on Friday: The Big Day. A Chaos Engineering Experiment - Part 2.
#sre #напочитать
- Deploy on Friday? How About Destroy on Friday! A Chaos Engineering Experiment - Part 1;
- Destroy on Friday: The Big Day. A Chaos Engineering Experiment - Part 2.
#sre #напочитать
SERVICE-LEVEL-AGREEMENT-TEMPLATE.pdf
61.8 KB
📄 Service Level Agreement (SLA) - что такое SLA, каким оно бывает и что может в себя включать...
https://uptimerobot.com/blog/what-is-an-sla/
В pdf файле пример оформления SLA с клиентом.
#sre #sla #напочитать
https://uptimerobot.com/blog/what-is-an-sla/
В pdf файле пример оформления SLA с клиентом.
#sre #sla #напочитать
This media is not supported in your browser
VIEW IN TELEGRAM
📞 Building On-call: Our observability strategy - материал, конечно, основан на работе самого incident.io, но всё равно интересно почитать о том, как они строят процесс наблюдения, сбора, отображения и обработки данных о системах, которые требуют внимания и для которых может потребоваться реагирование, в случае возникновения инцидента...
https://incident.io/hubs/building-on-call/building-on-call-our-observability-strategy
#sre #oncall #напочитать
https://incident.io/hubs/building-on-call/building-on-call-our-observability-strategy
#sre #oncall #напочитать
📞 What I tell people new to on-call - автор статьи делится опытом и даёт советы тем, кому предстоит столкнуться с on-call дежурствами в своей работе...
https://ntietz.com/blog/what-i-tell-people-new-to-oncall/
#oncall #sre #напочитать
https://ntietz.com/blog/what-i-tell-people-new-to-oncall/
#oncall #sre #напочитать
💭 What Platform Engineering Meant for Adidas’s SREs - рассказ о трансформации e-commerce в Adidas от монолита к микросервисам, и о том, с какими задачами в ходе этого процесса SRE инженерам компании пришлось столкнуться...
- Видео: https://www.youtube.com/watch?v=BBwMkC7a8Ko
- Текстом: https://thenewstack.io/what-platform-engineering-meant-for-adidass-sres/
#sre #видео
- Видео: https://www.youtube.com/watch?v=BBwMkC7a8Ko
- Текстом: https://thenewstack.io/what-platform-engineering-meant-for-adidass-sres/
#sre #видео
YouTube
Andreia Otto & Ravikanth Mogulla - Navigating the Transition: SRE Challenges and Highlights
This talk delves into the transformative journey of transitioning adidas e-commerce from monolithic architectures to microservices, exploring the key challenges faced by Site Reliability Engineers (SREs) and highlighting crucial insights gained throughout…