Как ломаются большие системы и как их траблшутить
SRE (Site Reliability Engineering) — это сфера обеспечения бесперебойной работы высоконагруженных сервисов. Вспомните недавний инцидент с Microsoft, когда из-за ошибки антивируса на компьютерах по всему миру начали появляться синие экраны смерти. Вероятней всего, в этот момент SRE-инженеры начали оперативноплакать фиксить это дело.
К сожалению, сейчас мало где обучают SRE, хотя в индустрии такие задачи очень востребованы. Аварийные ситуации неизбежны, они случаются всегда, и это нормально. Чтобы минимизировать риски, нужно готовиться и развивать культуру SRE, даже если вы не планируете становиться таким инженером, понимание этой сферы будет полезным.
Рекомендуем начать с этой статьи, там рассказали основные причины поломок больших распределённых систем и методы их устранения.
#sre
SRE (Site Reliability Engineering) — это сфера обеспечения бесперебойной работы высоконагруженных сервисов. Вспомните недавний инцидент с Microsoft, когда из-за ошибки антивируса на компьютерах по всему миру начали появляться синие экраны смерти. Вероятней всего, в этот момент SRE-инженеры начали оперативно
К сожалению, сейчас мало где обучают SRE, хотя в индустрии такие задачи очень востребованы. Аварийные ситуации неизбежны, они случаются всегда, и это нормально. Чтобы минимизировать риски, нужно готовиться и развивать культуру SRE, даже если вы не планируете становиться таким инженером, понимание этой сферы будет полезным.
Рекомендуем начать с этой статьи, там рассказали основные причины поломок больших распределённых систем и методы их устранения.
#sre