Типичный программист
81.6K subscribers
2.66K photos
905 videos
8 files
7.45K links
Всё самое интересное по программированию

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Сайт: https://tprg.ru/site

VK: vk.com/tproger

Регистрация в перечне РКН: https://tprg.ru/mJwo
Download Telegram
Как ломаются большие системы и как их траблшутить

SRE (Site Reliability Engineering) — это сфера обеспечения бесперебойной работы высоконагруженных сервисов. Вспомните недавний инцидент с Microsoft, когда из-за ошибки антивируса на компьютерах по всему миру начали появляться синие экраны смерти. Вероятней всего, в этот момент SRE-инженеры начали оперативно плакать фиксить это дело.

К сожалению, сейчас мало где обучают SRE, хотя в индустрии такие задачи очень востребованы. Аварийные ситуации неизбежны, они случаются всегда, и это нормально. Чтобы минимизировать риски, нужно готовиться и развивать культуру SRE, даже если вы не планируете становиться таким инженером, понимание этой сферы будет полезным.

Рекомендуем начать с этой статьи, там рассказали основные причины поломок больших распределённых систем и методы их устранения.

#sre