Google официально объяснила причины трёхчасового сбоя 13 июня, который положил Service Control и сотни зависимых сервисов — от Gmail до Cloudflare Workers. Ни атаки, ни DDoS: корпорация подорвалась на собственной мине.
29 мая в проверку квот вписали новую ветку логики. Тесты её благополучно проигнорировали — срабатывала только при особой структуре данных. 12 июня система впервые встретила политику с пустым полем, вызвала null pointer и рухнула синхронно во всех регионах.
Фича-флага не предусмотрели — отключить проблемный код было нельзя. Обработки ошибок не добавили — система зависла в бесконечных перезагрузках. Эффект стада при восстановлении вызвал лавину повторных запросов и перегрузил внутренние интерфейсы, включая систему оповещений. Мораль проста: один нуль всё ещё способен парализовать планету.
#GoogleCloud #SRE #инциденты
@SecLabNews
Please open Telegram to view this post
VIEW IN TELEGRAM
SecurityLab.ru
Google наконец рассказала, как случайная строка в коде парализовала половину интернета
Все ждали объяснений сбоя. Теперь ясно: он был не случайностью, а закономерностью.