Forwarded from Sysadmin Tools 🇺🇦
Перевод Post Mortem-а от Фланта на русский о масштабном сбое Amazon Kinesis в US-EAST-1 (25 ноября)
https://habr.com/ru/company/flant/blog/530522/
#aws #amazon #postmortem
https://habr.com/ru/company/flant/blog/530522/
#aws #amazon #postmortem
Хабр
Post Mortem по масштабному сбою Amazon Kinesis в US-EAST-1 (25 ноября)
Прим. перев.: на прошлой неделе сбой одного из сервисов AWS привёл к проблемам в доступности/корректном функционировании целого ряда облачных услуг этого крупног...
Подробный постмортем падения AWS на несколько часов 7 декабря 2021:
https://aws.amazon.com/message/12721/
Кому нужна выжимка:
• Проблема была во внутренней сети AWS, где крутятся мониторинг и control plain некоторых сервисов. Поэтому сами сервисы не падали, но невозможно было внести изменения, что для некоторых сервисов, например, API Gateway оказалось равным проблемам его работоспособности (делается фикс такого поведения).
• Задержка с отображением проблем на странице статуса в том числе связана с недоступностью мониторинга в результате падения внутренней сети. Так как инженеры AWS долгое время не могли узнать (без мониторинга), что на самом деле происходит.
• Интересно отметить, что причиной послужил код, который уже несколько лет успешно крутится в проде, просто его поведение, когда он масштабируется, не было оттестировано (теперь протестировали – нет, не работает). Автоскелинг выключили, мощности хватает, как дотестируют, включат автоскелинг обратно (может быть).
Дополнительно отмечу для себя интересный факт, что S3 и DynamoDB ресурсы, которые, как и другие, не страдали во время инцидента, однако вот те, что подключены через VPC Endpoint – были недоступны. Причём, как понимаю (чего нет в постмортеме) – речь именно о (бесплатных) Gateway VPC Endpoints, в то время как (платные) Interface endpoints – не пострадали.
Итого: приятно читать столь детальный отчёт, проливающий свет на внутреннюю кухню AWS.
#postmortem
https://aws.amazon.com/message/12721/
Кому нужна выжимка:
• Проблема была во внутренней сети AWS, где крутятся мониторинг и control plain некоторых сервисов. Поэтому сами сервисы не падали, но невозможно было внести изменения, что для некоторых сервисов, например, API Gateway оказалось равным проблемам его работоспособности (делается фикс такого поведения).
• Задержка с отображением проблем на странице статуса в том числе связана с недоступностью мониторинга в результате падения внутренней сети. Так как инженеры AWS долгое время не могли узнать (без мониторинга), что на самом деле происходит.
• Интересно отметить, что причиной послужил код, который уже несколько лет успешно крутится в проде, просто его поведение, когда он масштабируется, не было оттестировано (теперь протестировали – нет, не работает). Автоскелинг выключили, мощности хватает, как дотестируют, включат автоскелинг обратно (может быть).
Дополнительно отмечу для себя интересный факт, что S3 и DynamoDB ресурсы, которые, как и другие, не страдали во время инцидента, однако вот те, что подключены через VPC Endpoint – были недоступны. Причём, как понимаю (чего нет в постмортеме) – речь именно о (бесплатных) Gateway VPC Endpoints, в то время как (платные) Interface endpoints – не пострадали.
Итого: приятно читать столь детальный отчёт, проливающий свет на внутреннюю кухню AWS.
We want to apologize for the impact this event caused for our customers. While we are proud of our track record of availability, we know how critical our services are to our customers, their applications and end users, and their businesses. We know this event impacted many customers in significant ways. We will do everything we can to learn from this event and use it to improve our availability even further.#postmortem
Amazon
Summary of the AWS Service Event in the Northern Virginia (US-EAST-1) Region
CrowdStrike Postmortem
https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/
What Happened?
On
TL;DR
❌ linter
❌ auto tests
❌ canary deployment
❌ rollback
#postmortem
https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/
What Happened?
On
Friday, July 19, 2024 at 04:09 UTC, as part of regular operations, CrowdStrike released a content configuration update for the Windows sensor to gather telemetry on possible novel threat techniques.TL;DR
❌ linter
❌ auto tests
❌ canary deployment
❌ rollback
#postmortem
crowdstrike.com
Falcon Content Update Remediation and Guidance Hub | CrowdStrike
Access consolidated remediation and guidance resources for the CrowdStrike Falcon content update affecting Windows hosts.
👍11🙈6😭3❤1