🔧 An Incident Command Training Handbook - занятное чтиво для тех, кто сталкивается (или будет сталкиваться) в своей работе с инцидентами, и встаёт у руля в процессе их рассмотрения и решения, становясь так называемым Incident Commander'ом.
#sre #напочитать #incident
#sre #напочитать #incident
Howie-the-Post-Incident-Guide.pdf
2.7 MB
📒 Howie: The Post-Incident Guide.
Толковый материал о том, как правильно обработать произошедший инцидент и вынести из всего этого максимум полезного.
Забрал отсюда https://www.jeli.io/blog/teach-me-how-to-howie
#sre #incident #напочитать
Толковый материал о том, как правильно обработать произошедший инцидент и вынести из всего этого максимум полезного.
Забрал отсюда https://www.jeli.io/blog/teach-me-how-to-howie
#sre #incident #напочитать
🎙 Running Post-Mortems - ещё один пример обработки инцидентов. Здесь автор предлагает использовать модератора, который будет координировать действия всех причастных к разбору полётов.
https://certomodo.substack.com/p/running-post-mortems
#sre #incident #postmortem
https://certomodo.substack.com/p/running-post-mortems
#sre #incident #postmortem
🛠 8 марта, у DataDog случился инцидент, в рамках которого большое количество серверов оказалось недоступно после автоматической установки обновления безопасности и перезапуска systemd-networkd.
На основе произошедшего, инженеры написали подробнейший разбор инцидента. И на мой взгляд, разбор является хорошим примером того, как можно подходить к вопросу реагирования на подобные ситуации...
- 2023-03-08 Incident: Infrastructure connectivity issue affecting multiple regions
- 2023-03-08 Incident: A Deep Dive into the Platform-level Impact
- 2023-03-08 Incident: A Deep Dive into Our Incident Response
#sre #incident #напочитать
На основе произошедшего, инженеры написали подробнейший разбор инцидента. И на мой взгляд, разбор является хорошим примером того, как можно подходить к вопросу реагирования на подобные ситуации...
- 2023-03-08 Incident: Infrastructure connectivity issue affecting multiple regions
- 2023-03-08 Incident: A Deep Dive into the Platform-level Impact
- 2023-03-08 Incident: A Deep Dive into Our Incident Response
#sre #incident #напочитать
Incident post-mortem template.docx
287.7 KB
А вот тут простейший шаблон для оформления инцидента. Наткнулся на него вот в этой статье...
https://incident.io/blog/incident-post-mortem-template
#sre #postmortem #incident
https://incident.io/blog/incident-post-mortem-template
#sre #postmortem #incident
🗜И ещё немного про реагирование на инциденты и работу команды при этом - A guide to running Incident Command.
Что делать команде, в случае какого-либо инцидента, что делать координатору (Incident Commander), как можно построить процесс работы над инцидентом в принципе.
#sre #напочитать #incident
Что делать команде, в случае какого-либо инцидента, что делать координатору (Incident Commander), как можно построить процесс работы над инцидентом в принципе.
#sre #напочитать #incident
statuspages101.pdf
2.2 MB
Пара статей с рекомендациями по созданию статус-страниц для инцидентов...
- Status Pages 101: How to Create a Status Page You and Your Customers Will Actually Want to Use.
- Your guide to better incident status pages.
#sre #incident #statuspage
- Status Pages 101: How to Create a Status Page You and Your Customers Will Actually Want to Use.
- Your guide to better incident status pages.
#sre #incident #statuspage