Много лет, вплоть до прошлого года, для компаний с требованиями обязательной фильтрации всего трафика из интернета, работать на AWS была большая проблема. Ведь трафик ходил через Internet Gateway, контролировать который нельзя. Приходилось отказываться от Амазона или наворачивать свои (читай дорогие и сложные в поддержке) системы.
В попытке хоть как-то решить эту проблему в самом конце прошлого года появился VPC Ingress Routing, позволяющий завести трафик на свои инстансы для подобной фильтрации.
Однако поддерживать инстансы, через которые идёт весь интернет-трафик и потому их надёжность для всей системы критическая, была очевидной проблемой.
В результате для решения этой задачи запилили целый специальный балансер - GWLB, а для полного исправления ситуации добавили в AWS Transit Gateway новый режим Appliance Mode:
https://aws.amazon.com/blogs/networking-and-content-delivery/introducing-aws-gateway-load-balancer-supported-architecture-patterns/
В общем, интересно подытожить, что за год с небольшим Амазон смог решить застарелую проблему для озабоченных Compliance и Security компаний.
#GWLB #TGW
В попытке хоть как-то решить эту проблему в самом конце прошлого года появился VPC Ingress Routing, позволяющий завести трафик на свои инстансы для подобной фильтрации.
Однако поддерживать инстансы, через которые идёт весь интернет-трафик и потому их надёжность для всей системы критическая, была очевидной проблемой.
В результате для решения этой задачи запилили целый специальный балансер - GWLB, а для полного исправления ситуации добавили в AWS Transit Gateway новый режим Appliance Mode:
https://aws.amazon.com/blogs/networking-and-content-delivery/introducing-aws-gateway-load-balancer-supported-architecture-patterns/
В общем, интересно подытожить, что за год с небольшим Амазон смог решить застарелую проблему для озабоченных Compliance и Security компаний.
#GWLB #TGW
Разбор падения Slack от 4 января:
https://slack.engineering/slacks-outage-on-january-4th-2021/
Весьма полезное чтиво – хронология, детали, выводы. Кроме ставшего классическим
Масштабирование AWS Transit GateWay (TGW)
TGW менеджится Амазоном, потому повлиять на него мы не можем. В то время, как часть проблем у Slack возникла из-за того, что резко возросший трафик через их корневой TGW, через который завязаны их окружения, давал ошибки, не успевая масштабироваться, добавляя проблем во время падения Slack. Амазоновцы вручную боролись с этой ситуацией:
However, our TGWs did not scale fast enough. During the incident, AWS engineers were alerted to our packet drops by their own internal monitoring, and increased our TGW capacity manually.
Чтобы такого избежать, нужно "прогревать" TGW, аналогично тому, как такое предусмотрено для ELB:
https://aws.amazon.com/articles/best-practices-in-evaluating-elastic-load-balancing/#pre-warming
Shared VPC vs different VPCs
Другой момент – отрицательные стороны от использования отдельных VPC. Если бы у Slack использовалась Shared VPC – и для окружения, и для мониторинга, то трафик бы не упёрся бы в узкое горлышко TGW (его скорости масштабирования), через который и соединяются отдельные VPC.
#TGW #Shared_VPC #design
https://slack.engineering/slacks-outage-on-january-4th-2021/
Весьма полезное чтиво – хронология, детали, выводы. Кроме ставшего классическим
/proc/sys/fs/file-max, есть и специфичные амазоновские причины.Масштабирование AWS Transit GateWay (TGW)
TGW менеджится Амазоном, потому повлиять на него мы не можем. В то время, как часть проблем у Slack возникла из-за того, что резко возросший трафик через их корневой TGW, через который завязаны их окружения, давал ошибки, не успевая масштабироваться, добавляя проблем во время падения Slack. Амазоновцы вручную боролись с этой ситуацией:
However, our TGWs did not scale fast enough. During the incident, AWS engineers were alerted to our packet drops by their own internal monitoring, and increased our TGW capacity manually.
Чтобы такого избежать, нужно "прогревать" TGW, аналогично тому, как такое предусмотрено для ELB:
https://aws.amazon.com/articles/best-practices-in-evaluating-elastic-load-balancing/#pre-warming
Shared VPC vs different VPCs
Другой момент – отрицательные стороны от использования отдельных VPC. Если бы у Slack использовалась Shared VPC – и для окружения, и для мониторинга, то трафик бы не упёрся бы в узкое горлышко TGW (его скорости масштабирования), через который и соединяются отдельные VPC.
#TGW #Shared_VPC #design
slack.engineering
Slack’s Outage on January 4th 2021
And now we welcome the new year. Full of things that have never been. — Rainer Maria Rilke January 4th 2021 was the first working day of the year for many around the globe, and for most of us at Slack too (except of course for our on-callers and our customer…
Как Samsung использует AWS Transit Gateway для создания глобальной приватной сети:
https://www.youtube.com/watch?v=K5ww_O4vsxo
#TGW #video #design
https://www.youtube.com/watch?v=K5ww_O4vsxo
#TGW #video #design
YouTube
Samsung Cloud: Global Hybrid Network Optimization Across 5 AWS Regions Using AWS Transit Gateway
Samsung Cloud is a mobile storage service for 500M+ users of Samsung Galaxy users across 5 continents using a hybrid architecture of AWS and on-premise. Recently, Samsung Cloud decided to integrate their global infrastructure into a single private network…
Transit Gateway Peering в том же регионе:
https://aws.amazon.com/blogs/networking-and-content-delivery/aws-transit-gateway-now-supports-intra-region-peering/
Вариант, когда нужно объединить части сети для TGW в том же регионе (до этого TGW Peering был лишь кросс-региональный). Актуально, например, когда нужно присоединиться к 3-d party TGW, который в том же регионе, что и вы.
#TGW
https://aws.amazon.com/blogs/networking-and-content-delivery/aws-transit-gateway-now-supports-intra-region-peering/
Вариант, когда нужно объединить части сети для TGW в том же регионе (до этого TGW Peering был лишь кросс-региональный). Актуально, например, когда нужно присоединиться к 3-d party TGW, который в том же регионе, что и вы.
#TGW
Advanced Amazon VPC design and new capabilities:
https://www.youtube.com/watch?v=fi3vcenH6UY
🔸 VPC networking overview
🔸 IPv6 only subnets
🔸 DNS64
🔸 NAT64
🔸 Resource-based instance naming
🔸 IPv6 targets for ALB/NLB
🔸 IPAM (IP Address Manager)
🔸 VPC enhanced routing
🔸 Private NATGW
🔸 S3 Interface Endpoint
🔸 PrivateLink: ALB + NLB integration
🔸 TGW Connect
🔸 TGW intra-region peering
🔸 Direct Connect overview
🔸 Direct Connect MACsec
🔸 Direct Connect + Local Zones
🔸 Direct Connect SiteLink
🔸 AWS Cloud WAN
🔸 Network Access Analyzer
🔸 VPC Reachability Analyzer
#VPC #TGW #IPv6 #reInvent #video
https://www.youtube.com/watch?v=fi3vcenH6UY
🔸 VPC networking overview
🔸 IPv6 only subnets
🔸 DNS64
🔸 NAT64
🔸 Resource-based instance naming
🔸 IPv6 targets for ALB/NLB
🔸 IPAM (IP Address Manager)
🔸 VPC enhanced routing
🔸 Private NATGW
🔸 S3 Interface Endpoint
🔸 PrivateLink: ALB + NLB integration
🔸 TGW Connect
🔸 TGW intra-region peering
🔸 Direct Connect overview
🔸 Direct Connect MACsec
🔸 Direct Connect + Local Zones
🔸 Direct Connect SiteLink
🔸 AWS Cloud WAN
🔸 Network Access Analyzer
🔸 VPC Reachability Analyzer
#VPC #TGW #IPv6 #reInvent #video
YouTube
AWS re:Invent 2021 - Advanced Amazon VPC design and new capabilities
Amazon VPC gives you complete control over your AWS virtual networking environment. Have you ever wondered how new Amazon VPC features affect the way you design your AWS networking infrastructure or change existing architectures that you use today? This session…
Теперь можно ссылаться на Security Groups из другой VPC, которая присоединена через Transit Gateway:
https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/security-group-rules-reference.html#tgw-vpc-rules
Раньше можно было ссылаться на SG из других VPC только через VPC peering, теперь можно из через TGW. Правда для этого потребуется обновить TGW или VPC attachment:
https://docs.aws.amazon.com/vpc/latest/tgw/tgw-sg-updates.html
Особенности:
▪️ Ссылаться через TGW peering нельзя (VPC -> TGW -> TGW peering -> TGW -> VPC, только VPC -> TGW -> VPC).
▪️ Ссылаться можно лишь в правиле для входящего трафика.
▪️ Не работает на древних виртуалках (только Nitro-based EC2 instances).
▪️ Не работает на любых виртуалках, расположенных в древних датацентрах, конкретно подзона
▪️ Не работает, как минимум пока, с PrivateLink и Reachability Analyzer.
Кому-то мелкая вещь и бессмысленная вещь, а кому-то упрощение управление зоопарком Security Groups в сложной сети.
#VPC #TransitGateway #SecurityGroup
https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/security-group-rules-reference.html#tgw-vpc-rules
Раньше можно было ссылаться на SG из других VPC только через VPC peering, теперь можно из через TGW. Правда для этого потребуется обновить TGW или VPC attachment:
https://docs.aws.amazon.com/vpc/latest/tgw/tgw-sg-updates.html
Особенности:
▪️ Ссылаться через TGW peering нельзя (VPC -> TGW -> TGW peering -> TGW -> VPC, только VPC -> TGW -> VPC).
▪️ Ссылаться можно лишь в правиле для входящего трафика.
▪️ Не работает на древних виртуалках (только Nitro-based EC2 instances).
▪️ Не работает на любых виртуалках, расположенных в древних датацентрах, конкретно подзона
use1-az3 (которую всегда рекомендовал исключать).▪️ Не работает, как минимум пока, с PrivateLink и Reachability Analyzer.
Кому-то мелкая вещь и бессмысленная вещь, а кому-то упрощение управление зоопарком Security Groups в сложной сети.
#VPC #TransitGateway #SecurityGroup
👍9🤔1😱1