Devops Talks
451 subscribers
281 photos
10 videos
43 files
1.24K links
Новости, обновления и короткие посты на тему DevOps и OpenSource.
Download Telegram
Forwarded from AWS Notes (Roman Siewko)
It was not DNS. AWS падение 20 октября 2025 года.

1. С чего началось?

Внутренняя подсистема мониторинга NLB внезапно умирает от всплеска нагрузки во внутренней сети AWS.
The root cause is an underlying internal subsystem responsible for monitoring the health of our network load balancers.


2. It is always DNS.

Сбой мониторинга и перегрузка трафика вызвали проблемы в разрешении DNS, главным образом затронуты были внутренние AWS endpoints для DynamoDB (но не только).
DNS resolution issues for the regional DynamoDB service endpoints.


3. Падаем громко.
DynamoDB тянет за собой EC2 Control Plane, Lambda, SQS, CloudTrail, ECS, EKS и т.д. — потому что они зависят и по данным, и по метаданным.
This issue also affects other AWS Services in the US-EAST-1 Region.


4. Первый фикс.

DNS for DynamoDB чинят уже спустя два часа. Но каскадное падение многих (143+) сервисов запущено, т.к. проблемный DNS закэшировался во всех этих сервисах.
After resolving the DynamoDB DNS issue at 2:24 AM, services began recovering but we had a subsequent impairment in the internal subsystem of EC2 that is responsible for launching EC2 instances due to its dependency on DynamoDB.

If you are still experiencing an issue resolving the DynamoDB service endpoints in US-EAST-1, we recommend flushing your DNS caches.


5. Monitoring blind.

Долгое время никто не знает, что реально происходит - ни CloudWatch, ни внутренний мониторинг не работает.

Network Load Balancer health checks also became impaired, resulting in network connectivity issues in multiple services such as Lambda, DynamoDB, and CloudWatch.


6. Почему упал не только один регион N.Virginia us-east-1?

Ключевые сервисы - IAM, CloudFront, CloudFormation, Route53 и др. - исторически живут исключительно в us-east-1. Поэтому проблема с ними = проблемы у всех регионов.
Моё предположение, что это падение наконец-то станет окончательным поводом пересмотреть архитектуру 20-летней давности.
Global services or features that rely on US-EAST-1 endpoints such as IAM updates and DynamoDB Global tables may also be experiencing issues.


7. Как развивалось дальше?

Сервисы недоступны или throttle-ятся долгое время, т.к. проблемы, вызванные DynamoDB DNS и недоступность ключевых сервисов не часто тестировалось ранее, наверняка что-то с этим связанное вызвало серьёзные проблемы.
As part of the recovery effort, we temporarily throttled some operations such as EC2 instance launches, processing of SQS queues via Lambda Event Source Mappings, and asynchronous Lambda invocations.


8. Когда решили проблему и началась стабилизация?

Условно через 12 часов после начала. После ещё около трёх часов окончательно поднимались все остальные сервисы и в результате инцидент продлился около 15 часов.
By 3:01 PM, all AWS services returned to normal operations. Some services such as AWS Config, Redshift, and Connect continue to have a backlog of messages.


Итого.

Жду появления в бэклоге AWS своего IAM для каждого региона.

И замените, наконец, народу во внутренней сети их Cisco 2800 на что-нибудь поновее.
1
Там большой кипиш, MinIO прекратили отгрузку патчей и сборок для Docker имаджей.

Important: The MinIO community edition is now distributed as source code only. We will no longer provide pre-compiled binary releases for the community version.

Ссылка на тред:
https://github.com/minio/minio/issues/21647

Ссылка на анонс от минио:
https://github.com/minio/minio
У нас в Bitcoin Embassy на десктопе у мужиков стоит старенький Ubuntu 20.04 LTS с Gnome Shell.

Респект 💪
Forwarded from Адовый UX
Браузер Open AI — браузер, который решает за вас, что вы не будете смотреть и читать
lol. kek
🫡1
Forwarded from Data Secrets
О, Гарвард опубликовал отличную книгу по ML-системам

Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.

Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.

В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.

pdf-ка и онлайн версия доступны здесь, репозиторий тут
🔥1
Все уже наверное слышали, что Cloudflare вчера плотно так лежал.

Так вот из интересного, упавший Cloudflare сильно повлиял на работу DERP и STUN Tailscale серверов, из-за чего любые ресурсы за Tailscale были практически недоступны, ну или работали очень медленно.

Так сказать - минусы peer-based VPN дизайнa :)

Мы сейчас с мужиками из Tailscale разбираемся что к чему, если будут подробности - поделюсь.
Forwarded from Nikita Korotaev
I noticed many people in the issues who wanted to support the project financially - so we decided to run a small contest in the Russian community chats, but anyone else is welcome to support as well.

🎉 Contest for those who support xray-core!

We’re launching a contest to thank everyone who contributes to the development of xray-core.
Any donation counts, and the winner will be the person who makes the largest contribution.

🏆 Prizes:
1st place: a unique NFT
👉 https://opensea.io/item/ethereum/0xFFd2b873Cf2d26C4345fba05B0604A53050458e5/16

2nd place: one month of the Happ Enterprise plan for your service

💸 Donation addresses:
https://xn--r1a.website/projectXtls/1145

💙 You can participate with any amount - every contribution matters.
Thank you to everyone who supports the project!

📅 Winners will be announced on November 28