Ах ты ж Ёб...лако!
488 subscribers
51 photos
2 videos
1 file
111 links
История былинных отказов хмарных вычислений.
Download Telegram
Облачный мониторинг допустил утечку 21 миллиона скриншотов из-за открытого всему миру S3 bucket. В том числе скриншотов рабочих столов пользователей.

https://cybernews.com/security/employee-monitoring-app-leaks-millions-screenshots/
🔥10
В 21:46 мск отказала большая часть гугловского облака GCP. Ходят слухи, что всё из-за одного ключевого технического внутреннего сервиса, но в результате в разной степени поломались гугловские продукты, вроде Cloud, Drive, Meet, Gmail.

Предположительно, из-за этого начал глючить Cloudflare, один из самых популярных CDN-провайдеров.

Дальше по цепочке легла половина интернета — Spotify, Discord, Snapchat и тысячи других. Особенно тревожно, что для многих людей сломался RCS — это протокол, продвигаемый Гуглом, который должен заменить смски.

Предвкушаю увлекательные постмортемы от Гугла и Cloudflare, последние уж точно не упустят шанса рассказать, что это было.

В тысячах инженерных команд по всему мира сейчас была жара — все тушили пожары. А завтра все сядут составлять списки, что нужно поменять, чтобы в следующий раз было не так больно. Так и живем.

P. S. Про одновременное падение Amazon Web Services — кажется дезинформация.
😁5👀2
«Мы глубоко сожалеем о последствиях, которые вызвало это нарушение/сбой в работе сервиса для всех наших пользователей и их клиентов. Google Cloud доверяют свои рабочие нагрузки крупные и мелкие компании, и мы будем работать лучше. В ближайшие дни мы опубликуем полный отчёт об инциденте с указанием причины, подробных временных рамок и надёжных мер по устранению неполадок, которые мы предпримем. Учитывая масштаб и последствия этого инцидента, мы хотели бы предоставить некоторую информацию ниже», — гласит заявление компании.

Инцидент, гласят официальные данные, произошёл 12 июня в 10:49 по Тихоокеанскому времени (21:49 мск), а работоспособность всех систем удалось восстановить ровно через три часа, в 13:39 (13 июня 0:49 мск); сбой затронул системы Google по всему миру. Основным симптомом проблемы стал резкий рост ответа «ошибка 503» в нескольких продуктах Google Cloud и Google Workspace при внешних запросах API.

«Согласно нашему первоначальному анализу, проблема возникла из-за недопустимого автоматического обновления квоты в нашей системе управления API, которая распространилась по всему миру и привела к отказу при выполнении внешних запросов API. Для восстановления работы мы включили обход проверки квоты, что позволило вернуть работу в большинстве регионов в течение двух часов. Однако база данных политики квот в [регионе] us-central1 оказалась перегружена, что привело к гораздо более длительному восстановлению в этом регионе. У нескольких продуктов были умеренные остаточные последствия (например, невыполненные задания) в течение часа после устранения основной проблемы, и после этого произошло частичное восстановление», — говорится в кратком отчёте.
🔥5🕊2
Forwarded from linkmeup
Дети, а теперь повторяем хором: облако — это просто большой компьютер, над которым у меня нет никакого контроля, и я не буду делать удивлённое лицо, когда всё просру.
TL;DR Чуваку грохнули всё, что было на аккаунте AWS, хотя он был обмазан по самые уши бекапами, реданденси штуками, шифрованием и вообще всем.
https://www.seuros.com/blog/aws-deleted-my-10-year-account-without-warning/
😁16
Когда некоторые ритейлеры построили свои ЦОДы, это вызывало на рынке, в том числе насмешки. А потом вдруг оказалось, что все им завидуют. И теперь те, кто не строит свои ЦОДы, хотя бы прибегают к услугам colocation, чтобы быть независимыми. Это по сути разворот от тренда на западе, где ритейл начал переход в облака ещё раньше, и сейчас он практически всё держит в облаках. А у нас 2022 год показал, насколько мы уязвимы, находясь в облаке: в любой момент оно может быть отключено, и бизнес из-за этого может остановиться.


Николай Кныш, Лемана Про (Леруа)

https://www.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B5%D0%BA%D1%82:%D0%9B%D0%B5%D0%BC%D0%B0%D0%BD%D0%B0_%D0%9F%D1%80%D0%BE_(%D1%83%D1%81%D0%BB%D1%83%D0%B3%D0%B8_colocation)
👍31🔥1
Forwarded from Zavtracast (Dmitriy Zombak)
В Южной Корее произошёл айтишный кластерфак.

В общем, случился пожар в государственной организации "Национальная служба Информационных Ресурсов" (NIRS, читай - местные Госуслуги).

От пожара пострадали сервера, где лежали документы от 125 тысяч госслужащих, 96 разных информационных систем правительства, а также критические важные для государства данные платформы по обмену файлами под названием G-Drive (не путать с Google Drive, это просто похожее название). На нём чиновники хранили рабочие документы. Всего потерялось 858 Тб данных. Бекапы хранились в соседней серверной, на другом этаже этого же здания, но и её затронул пожар.

В результате: никаких бекапов теперь нет и в помине и сейчас айтишники в срочном порядке восстанавливают данные из локально сохранённых и распечатанных документов. Местное МВД уверяет, что за шесть дней удалось восстановить где-то 10% утерянных данных и процесс займет какое-то время.

Буквально недавно в правительстве Южной Кореи критиковали AWS, Google Cloud и Azure от Microsoft, мол негоже государству использовать заморские технологии, всё сами сделаем. Сделали.

При этом, почему не было бекапов в другом датацентре никто внятно не может объяснить, поскольку система G-Drive использовалась с 2018 года и видимо с тех пор никаких её бекапов не было в принципе.

Интересно также и то, что пожар случился в правительственном здании в тот самый момент, когда там должны были пройти очередные инспекции, а главный ответственный за это чиновник недавно покончил жизнь самоубийством.

Но это всё наверное просто совпадение.

@zavtracast
😁31🤪1
У Амазона регион лег.

Если у вас сейчас что-то не работает (кроме AWS), то теперь вы знаете, что это (не) работает на AWS.

https://www.comss.ru/page.php?id=18156
1
Forwarded from AWS Notes (Roman Siewko)
После 12 часов лежания, AWS начал оживать — можете проверять свои нагрузки.

Краткое промежуточное итого — около 140 пострадавших сервисов. В пике лежало 110 сервисов одновременно (падения были волнами).

Предположу, что полное восстановление может занять ещё часов 6-8 и тогда оно "обгонит" падение Кинезиса пятилетней давности (17 часов)

В результате это будет самое длительное падение с 2011-го года. А если учесть количество лежащих сервисов, то самое масштабное. (Хотя, если считать процент сервисов, то может и нет :) — ведь тогда их было совсем мало).
🤔4
Сбой в работе облака AWS затронул умные кровати для сна от Sleep8 стоимостью 2000+ долларов, при этом некоторые клиенты Sleep8 застряли в наклонном положении или столкнулись с перегретыми до критического уровня матрасами.

https://www.theverge.com/news/804289/eight-sleep-smart-bed-aws-outage-overheating-offline
🤣11😢1
Прошедший Хеллоуин немного подпортили в Касперском. 01.11 весь день лихорадило облачный сервис хранения паролей Kaspersky Password Manager.

Точнее лихорадило сервис лицензирования, из-за чего почти весь день клиентская часть сваливалась в "Бесплатную" лицензию, ограниченную 5 записями.

Записываем +1 риск к облачным решениям:
- удаление данных
- удаление аккаунта
...
- слетевшая лицензия
😁9
Интернет снова лёг — серверы CloudFlare легли второй раз за неделю.

Пользователи массово жалуются на сбои и не могут войти на большинство сайтов

📢 Прямой эфир
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡6😱3😁1🤪1
⚡️Яндекс.Облако упало

С утра большое количество сайтов и сервисов в российском сегменте интернета было недоступно — причина в «краше» Yandex Cloud.

Если конкретно, проблема заключается в частичной недоступности сервисов Yandex Cloud Console в Облаке. Затронула ситуация зоны ru-central1-a, ru-central1-b, ru-central1-d.

Ситуация потихоньку стабилизируется, но все еще не полностью📌
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1
Иран вывел из строя дата-центры Amazon в ОАЭ и Бахрейне.
Дата-центры Amazon в Бахрейне и ОАЭ вышли из строя из-за ударов Ирана. Вычислительные центры обесточены, а облачные сервисы компании в этих странах отключены (c) Amazon

https://tass.ru/ekonomika/26610571
😘8👍2😱1😢1
Интернет-гигант Google отключил от своего облачного сервиса Google Cloud крупного клиента в лице компании Railway, чем спровоцировал масштабный сбой в ее работе. Как пишет The Register, он не стал тратить время на объяснение причин закрытия доступа, да и предупреждений о грядущем отключении от него тоже не поступало.

Railway – это американская облачная PaaS‑платформа (Platform as a Service). Она основана в 2020 г. и предоставляет своим клиентам онлайн-сервис автоматизированного развертывания кода. Railway подключается к репозиториям GitHub своих клиентов и выполняет за них всю необходимую работу для запуска кода в облаке.

https://internet.cnews.ru/news/top/2026-05-20_potomu_chto_mozhetgoogle_bez
😱5😁2
Forwarded from Yandex Cloud Alerts
Временная недоступность сервисов
Сервисы: Compute Cloud, Virtual Private Cloud, Object Storage, Identity and Access Management, Resource Manager, Network Load Balancer, Container Registry, Managed Service for Kubernetes®, Monitoring, Managed Service for PostgreSQL, Managed Service for ClickHouse®, Yandex StoreDoc, Managed Service for MySQL®, Managed Service for Valkey, Data Processing, Message Queue, SpeechKit, Translate, Vision OCR, DataLens, Cloud Functions, Key Management Service, Managed Service for YDB, IoT Core, Cloud Interconnect, Certificate Manager, Data Transfer, DataSphere, API Gateway, Managed Service for Apache Kafka®, Yandex Lockbox, Application Load Balancer, Yandex Identity Hub, Tracker, Cloud DNS, Cloud CDN, Cloud Logging, Yandex MPP Analytics Engine for PostgreSQL, Data Streams, Serverless Containers, Forms, Wiki, Load Testing, Managed Service for GitLab, Cloud Desktop, Audit Trails, Yandex Query, SmartCaptcha, Cloud Apps, Cloud Backup, Managed Service for OpenSearch, Yandex Search API, Yandex Cloud Console, YandexGPT API, Yandex Cloud Billing, Smart Web Security, Yandex Cloud Postbox, Yandex WebSQL, Yandex Managed Service for Apache Airflow®, Managed Service for Prometheus®, SpeechSense, Yandex Cloud Video, Yandex MetaData Hub, Support Center, Cloud Notification Service, SourceCraft Code Assistant, Yandex BareMetal, Security Deck, Cloud Registry, Marketplace, Serverless Integrations, Yandex Managed Service for Trino, Yandex Cloud Quota Manager, SourceCraft, Managed Service for Apache Spark, Yandex Neurosupport, Managed Service for YTsaurus, Yandex Cloud Detection and Response, GOST Gateway, Managed Service for Sharded PostgreSQL, Yandex AI Studio, Stackland, Monium Traces, Monium, Monium Logs, Monium Metrics
Тип: ⛔️ Unavailable
Зоны: ru-central1-e, ru-central1-a, ru-central1-b, ru-central1-d

Наблюдается кратковременная потеря связности между внешними сервисами и Яндекс Облаком. Проблема локализована на уровне внешнего контура: работа внутренних сервисов и data-plane не нарушена. Команда разработки уже занимается восстановлением.

Подробнее
2🤡2😁1