Типичный программист

Как ломаются большие системы и как их траблшутить

SRE (Site Reliability Engineering) — это сфера обеспечения бесперебойной работы высоконагруженных сервисов. Вспомните недавний инцидент с Microsoft, когда из-за ошибки антивируса на компьютерах по всему миру начали появляться синие экраны смерти. Вероятней всего, в этот момент SRE-инженеры начали оперативно ~~плакать~~ фиксить это дело.

К сожалению, сейчас мало где обучают SRE, хотя в индустрии такие задачи очень востребованы. Аварийные ситуации неизбежны, они случаются всегда, и это нормально. Чтобы минимизировать риски, нужно готовиться и развивать культуру SRE, даже если вы не планируете становиться таким инженером, понимание этой сферы будет полезным.

Рекомендуем начать с этой статьи, там рассказали основные причины поломок больших распределённых систем и методы их устранения.

#sre

13.7K views12:31

About

Blog

Apps

Platform