DevOps Labdon

🔵 عنوان مقاله
How to run AI model inference with GPUs on Amazon EKS Auto Mode

🟢 خلاصه مقاله:
اجرای استنتاج مدل‌های هوش مصنوعی روی GPU در Amazon EKS Auto Mode با اعلام نیازمندی‌ها در سطح Pod ساده می‌شود و خودکار ظرفیت GPU را فراهم و مقیاس می‌دهد. کافی است سرور استنتاج (مثل TensorFlow Serving، TorchServe یا NVIDIA Triton Inference Server) را با CUDA/cuDNN و NVIDIA Container Toolkit در یک ایمیج آماده کنید، در Deployment منابع nvidia.com/gpu و CPU/Memory را درخواست دهید، و با نصب NVIDIA device plugin امکان شناسایی GPU را فراهم کنید. Auto Mode براساس این درخواست‌ها نودهای GPU مناسب را در EC2 تأمین و زمان‌بندی را تسریع می‌کند. برای مقیاس‌پذیری از HPA و اتوسکیلینگ کلاستر استفاده کنید و با تکنیک‌هایی مثل dynamic batching و multi-model throughput را بالا ببرید؛ برای مدیریت هزینه، right-sizing، استفاده هدفمند از Spot و scale-to-zero را در نظر بگیرید. امنیت و شبکه با VPC CNI، Security Group و IAM Roles for Service Accounts و مشاهده‌پذیری با Prometheus/Grafana، DCGM و CloudWatch تکمیل می‌شوند. در نهایت، با CI/CD و Amazon ECR و الگوهای انتشار امن (blue/green یا canary) استقرار به‌صورت قابل تکرار و پایدار از توسعه تا تولید انجام می‌شود.

#AmazonEKS #Kubernetes #GPU #MLOps #AWS #Inference #AutoScaling #NVIDIA

🟣لینک مقاله:
https://ku.bz/jyGr1NGBX

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Amazon

How to run AI model inference with GPUs on Amazon EKS Auto Mode | Amazon Web Services

In this post, we show you how to swiftly deploy inference workloads on EKS Auto Mode and demonstrate key features that streamline GPU management. We walk through a practical example by deploying open weight models from OpenAI using vLLM, while showing best…

75 views05:30

DevOps Labdon

🔵 عنوان مقاله
Best Practices Cluster Setup Guide for Real-Time Inference on Amazon EKS

🟢 خلاصه مقاله:
**این راهنما نشان می‌دهد چگونه مدل‌های ML را به سرویس‌های آمادهٔ تولید روی Amazon EKS تبدیل کنید، به‌ویژه برای بارهای GenAI با نیاز به تأخیر کم و ظرفیت الاستیک. محتوای آن اصول طراحی کلاستر (انتخاب CPU/GPU، تفکیک بارها با Node Group، چند-AZ، امنیت با Namespace و NetworkPolicy و IRSA)، استقرار استاندارد (کانتینرسازی، مدیریت کانفیگ و آرتیفکت‌ها)، و مقیاس‌پذیری چندلایه را پوشش می‌دهد: HPA در سطح Pod بر اساس متریک‌ها و Cluster Autoscaler برای افزودن/کاهش ظرفیت. همچنین به پیش‌گرم‌سازی برای کاهش Cold Start، مدیریت ترافیک با Ingress/Load Balancer، و بهینه‌سازی هزینه با Right-Sizing و ترکیب On-Demand و Spot اشاره می‌کند. برای پایداری، الگوهای Canary/Blue‑Green، PDB و پراکندگی توپولوژیک پیشنهاد می‌شود؛ و برای عملیات، مشاهده‌پذیری و هشداردهی مبتنی بر SLO به‌همراه آزمون کارایی توصیه شده است. نتیجه: ساده‌سازی دیپلوی، مقیاس‌گذاری کارآمد، و کاهش هزینهٔ عملیاتی برای ارائهٔ بی‌وقفهٔ استنتاج بلادرنگ روی EKS.

#AmazonEKS #Kubernetes #MLOps #RealTimeInference #GenAI #Autoscaling #CostOptimization #CloudArchitecture

🟣لینک مقاله:
https://ku.bz/y5sWmP7sM

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Amazon

Best Practices Cluster Setup Guide for Real-Time Inference on Amazon EKS - Amazon EKS

Learn how to set up an Amazon EKS cluster optimized for real-time online inference workloads using GPU-accelerated nodes, Karpenter for autoscaling, and integrate AWS services to serve a model.

84 views11:30

DevOps Labdon

🔵 عنوان مقاله
Under the hood: Amazon EKS Auto Mode

🟢 خلاصه مقاله:
Amazon EKS Auto Mode با خودکارسازی راه‌اندازی، مقیاس‌دهی و نگه‌داری کنترل پلین و worker nodeها، بار مدیریت زیرساخت Kubernetes را برمی‌دارد تا تیم‌ها بر توسعه محصول تمرکز کنند. در این مطلب، AWS توضیح می‌دهد این رویکرد برای بارهای کاری Kubernetes چه مزایایی دارد؛ از تأمین خودکار ظرفیت و مقیاس‌پذیری متناسب با ترافیک تا کاهش اضافه‌ظرفیت و ساده‌سازی عملیات برای سناریوهای مختلف مانند microservices و پردازش دسته‌ای. همچنین نگاهی به سازوکار درونی EKS Auto Mode ارائه می‌شود—نحوه ایجاد و نگه‌داری منابع کلاستر، تصمیم‌های مقیاس‌دهی، اعمال به‌روزرسانی‌ها و وصله‌های امنیتی با حداقل اختلال، و ادغام با قابلیت‌های شبکه، ذخیره‌سازی و observability در AWS. در پایان، به ملاحظات هزینه، بهترین‌روش‌ها و نحوه هم‌راست‌سازی با CI/CD اشاره می‌شود تا تیم‌ها با اعتماد بیشتری از این اتوماسیون استفاده کنند.

#AmazonEKS #Kubernetes #AWS #Cloud #DevOps #Containers #Autoscaling #PlatformEngineering

🟣لینک مقاله:
https://ku.bz/pdcLkB9Hn

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Amazon

Under the hood: Amazon EKS Auto Mode | Amazon Web Services

This blog post was co-authored by Alex Kestner, Sr Product Manager – EKS; Todd Neal, Sr. Software Engineer – EKS; Neelendra Bhandari, Sr Software Dev Manager – EKS; and Sai Vennam, Principal Specialist Solutions Architect. At re:Invent 2024, we launched Amazon…

74 views08:30

About

Blog

Apps

Platform