DevOps Labdon

🔵 عنوان مقاله
How to run AI model inference with GPUs on Amazon EKS Auto Mode

🟢 خلاصه مقاله:
اجرای استنتاج مدل‌های هوش مصنوعی روی GPU در Amazon EKS Auto Mode با اعلام نیازمندی‌ها در سطح Pod ساده می‌شود و خودکار ظرفیت GPU را فراهم و مقیاس می‌دهد. کافی است سرور استنتاج (مثل TensorFlow Serving، TorchServe یا NVIDIA Triton Inference Server) را با CUDA/cuDNN و NVIDIA Container Toolkit در یک ایمیج آماده کنید، در Deployment منابع nvidia.com/gpu و CPU/Memory را درخواست دهید، و با نصب NVIDIA device plugin امکان شناسایی GPU را فراهم کنید. Auto Mode براساس این درخواست‌ها نودهای GPU مناسب را در EC2 تأمین و زمان‌بندی را تسریع می‌کند. برای مقیاس‌پذیری از HPA و اتوسکیلینگ کلاستر استفاده کنید و با تکنیک‌هایی مثل dynamic batching و multi-model throughput را بالا ببرید؛ برای مدیریت هزینه، right-sizing، استفاده هدفمند از Spot و scale-to-zero را در نظر بگیرید. امنیت و شبکه با VPC CNI، Security Group و IAM Roles for Service Accounts و مشاهده‌پذیری با Prometheus/Grafana، DCGM و CloudWatch تکمیل می‌شوند. در نهایت، با CI/CD و Amazon ECR و الگوهای انتشار امن (blue/green یا canary) استقرار به‌صورت قابل تکرار و پایدار از توسعه تا تولید انجام می‌شود.

#AmazonEKS #Kubernetes #GPU #MLOps #AWS #Inference #AutoScaling #NVIDIA

🟣لینک مقاله:
https://ku.bz/jyGr1NGBX

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Amazon

How to run AI model inference with GPUs on Amazon EKS Auto Mode | Amazon Web Services

In this post, we show you how to swiftly deploy inference workloads on EKS Auto Mode and demonstrate key features that streamline GPU management. We walk through a practical example by deploying open weight models from OpenAI using vLLM, while showing best…

75 views05:30

DevOps Labdon

🔵 عنوان مقاله
Cost-optimized ml on production: autoscaling GPU nodes on Kubernetes to zero using keda

🟢 خلاصه مقاله:
این آموزش نشان می‌دهد چگونه با استفاده از Kubernetes و KEDA ظرفیت GPU را بر اساس طول صف پیام‌ها به‌صورت خودکار تا صفر کاهش دهیم و هزینه اجرای ML در محیط تولید را کم کنیم. معماری مبتنی بر یک message queue (مثل Kafka، RabbitMQ یا AWS SQS) است و KEDA با ScaledObject تعداد پادهای مصرف‌کننده GPU را نسبت به backlog تنظیم می‌کند (minReplicaCount=0). با فعال‌بودن Cluster Autoscaler و یک GPU node pool با حداقل اندازه صفر، نودهای GPU فقط هنگام نیاز ایجاد و سپس آزاد می‌شوند. نکات کلیدی شامل تنظیم nodeSelector/tolerations، درخواست nvidia.com/gpu، کنترل pollingInterval/cooldownPeriod، کاهش cold start با pre-pull و پایش با Prometheus/Grafana است. نتیجه: پرداخت هزینه GPU فقط هنگام وجود کار، همراه با حفظ قابلیت اطمینان و کنترل تأخیر.

#Kubernetes #KEDA #GPU #MLOps #Autoscaling #CostOptimization #MessageQueue #ProductionML

🟣لینک مقاله:
https://ku.bz/Zhb9q3BZx

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

❤1

641 views11:31

DevOps Labdon

🔵 عنوان مقاله
AI Infrastructure on Kubernetes

🟢 خلاصه مقاله:
** این گزارش از kube.today با اتکا به ۹۱۷ پاسخ نظرسنجی نشان می‌دهد تیم‌ها در عمل چگونه بارهای کاری AI را روی Kubernetes مقیاس می‌دهند. نتیجه اصلی، شکاف میان ادعاهای فروشندگان و واقعیت بهره‌گیری از GPU است: تأخیر در زمان‌بندی، تکه‌تکه‌شدن منابع، گلوگاه‌های داده و ضعف در مشاهده‌پذیری باعث می‌شود GPUها کمتر از حد انتظار کار کنند. گزارش الگوهای عملی برای بهبود ارائه می‌کند؛ از right-sizing و bin-packing و زمان‌بندی آگاه از توپولوژی تا autoscaling مبتنی بر صف، اولویت‌دهی و preemption و رصد دقیق حافظه و I/O روی GPU. این رویکردها به تبدیل ظرفیت پرهزینه GPU به کار مفید کمک می‌کند و Kubernetes را برای بارهای کاری AI قابل‌اعتمادتر می‌سازد.

#Kubernetes #AI #GPU #MLOps #CloudNative #K8s #AIInfrastructure #Observability

🟣لینک مقاله:
https://ku.bz/B3nxKPYpV

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Kube Today

AI Infrastructure on Kubernetes

Survey of 917 Kubernetes practitioners reveals 62% run clusters under 1,000 nodes, 54% struggle with GPU cost waste averaging $200K annually, and 51% prefer unified clusters with node separation over isolated infrastructure for AI workloads.

70 views05:30

DevOps Labdon

🔵 عنوان مقاله
Kubernetes Dynamic Resource Allocation for NVIDIA

🟢 خلاصه مقاله:
در دنیای فناوری اطلاعات امروزی، مدیریت منابع یک چالش مهم برای تیم‌های فناوری است. یکی از فناوری‌های نوآورانه در این زمینه، امکان تخصیص دینامیک منابع در سیستم‌های مدیریت کانتینر مانند کوبرنتیس است، خصوصاً زمانی که با کارت‌های گرافیک NVIDIA سر و کار داریم. این فناوری به صورت هوشمندانه و در زمان اجرا، منابع مورد نیاز برنامه‌ها را بر اساس درخواست‌های جاری تنظیم می‌کند و بدین‌صورت بهره‌وری سیستم را به حداکثر می‌رساند.

در گذشته، تخصیص منابع در سیستم‌های مبتنی بر کوبرنتیس معمولاً به صورت ثابت و پیش‌فرض انجام می‌شد، که این امر می‌توانست منجر به هدر رفتن منابع یا محدودیت‌های غیرضروری شود. اما حالا، با توسعه فناوری‌های جدید، امکان تخصیص دینامیک‌های منابع GPU برای تسهیل اجرای برنامه‌های سنگین و پرترافیک فراهم آمده است. این قابلیت، به صورت خودکار موارد نیازمند GPU را شناسایی و به‌روزرسانی می‌کند، که این امر سرعت و کارایی عملیات‌های مختلف را به طور قابل توجهی افزایش می‌دهد.

استفاده از این فناوری به توسعه‌دهندگان و مدیران سیستم این امکان را می‌دهد که بهتر از منابع GPU بهره‌مند شوند و هزینه‌های زیرساخت را کاهش دهند. همچنین، امکان انعطاف‌پذیری در مدیریت منابع، کارایی کلی سیستم را افزایش می‌دهد و اجرای برنامه‌های مبتنی بر هوش مصنوعی و یادگیری ماشین را سریع‌تر و موثرتر می‌سازد، مخصوصاً در محیط‌های چندکاربره و سرورهای بزرگ.

در نتیجه، بهره‌گیری از تخصیص دینامیک منابع NVIDIA در کوبرنتیس، یک قدم مهم به سمت بهبود روندهای اجرایی و افزایش بهره‌وری در توسعه و اجرای برنامه‌ها است. این فناوری نویدبخش آینده‌ای است که در آن منابع سیستم به صورت هوشمندانه و بهینه مدیریت می‌شوند و توسعه‌دهندگان می‌توانند با اطمینان بیشتری روی پروژه‌های پیشرفته خود کار کنند.

#کوبرتیس #هوش_مصنوعی #GPU #مدیریت_منابع

🟣لینک مقاله:
https://ku.bz/vVQHtF-jK

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

GitHub

GitHub - NVIDIA/k8s-dra-driver-gpu: NVIDIA DRA Driver for GPUs

NVIDIA DRA Driver for GPUs. Contribute to NVIDIA/k8s-dra-driver-gpu development by creating an account on GitHub.

78 views11:30

DevOps Labdon

🔵 عنوان مقاله
GPU-based containers as a service

🟢 خلاصه مقاله:
در دنیای فناوری امروز، وظیفه‌ی ارائه‌ی خدمات مبتنی بر کارت‌های گرافیک یا GPU، اهمیت روزافزون یافته است. شرکت‌ها و توسعه‌دهندگان نیازمند راهکارهای موثری هستند که بتوانند به صورت همزمان چندین کاربر یا tenant را بر روی پلتفرم‌های ابری مدیریت و پشتیبانی کنند. در این مقاله، به بررسی چگونگی ساخت یک بستر چندمستاجر بر پایه‌ی Kubernetes می‌پردازیم که از GPUها به بهترین شکل بهره‌برداری می‌کند. این سامانه با بهره‌گیری از راهکارهای نوآورانه‌ای نظیر کانتینرهای Kata، پلاگین‌های سفارشی CDI و جداسازی شبکه‌ای NVLink، قادر است تا وظایف محاسباتی مبتنی بر GPU را در قالب ماشین‌های مجازی به صورت امن و کارا اجرا کند.

برای ایجاد این پلتفرم، نیاز به هماهنگی دقیق میان فناوری‌های مختلف داریم تا بتواند نیازهای امنیتی و عملیاتی را برآورده کند. استفاده از کانتینرهای Kata، راهکاری است که امکان اجرای ایمن و مقیاس‌پذیر برنامه‌ها در ماشین‌های مجازی را فراهم می‌کند و این در حالی است که پلاگین‌های CDI سفارشی، امکانات لازم برای مدیریت و تخصیص منابع GPU را در محیط Kubernetes فراهم می‌آورند. همچنین، تکنولوژی NVLink موجب جداسازی سریع و امن ترافیک بین دستگاه‌های GPU و سرور می‌شود، که این امر تضمین‌کننده‌ی انتقال داده‌های حجیم و عملکرد بی‌وقفه است.

در نتیجه، این رویکرد نوآورانه نه تنها سطح امنیت و تخصص‌پذیری در اجرای وظایف GPU را بالا می‌برد، بلکه توانایی‌ها و انعطاف‌پذیری یک پلتفرم ابری چندمستاجر را نیز به طور قابل توجهی توسعه می‌دهد. این سیستم به کسب‌وکارها امکان می‌دهد تا به شکلی امن و مؤثر از منابع GPU بهره‌مند شوند و در عین حال، تجربه‌ای پایدار و قابل اعتماد برای کاربران خود فراهم نمایند.

#GPU #Kubernetes #کانتینر #هاست

🟣لینک مقاله:
https://ku.bz/gvmky__4m

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

topofmind.dev

GPU-based Containers as a Service - Top of Mind

Designing a multi-tenant, GPU-based Kubernetes Cluster

59 views11:30

DevOps Labdon

🔵 عنوان مقاله
GPU Starvation in Kubernetes: How Dynamic MIG Partitioning Saved Our GPU Budget

🟢 خلاصه مقاله:
در دنیای رایانش ابری و پردازش‌های سنگین، مدیریت بهینه منابع گرافیکی اهمیت زیادی دارد. یکی از چالش‌هایی که مدیران مراکز داده معمولا با آن مواجه هستند، کمبود و یا ناتوانی در استفاده کامل از منابع GPU است. در این مقاله، با نمونه‌ای واقعی آشنا می‌شویم که نشان می‌دهد چگونه با استفاده از فناوری تقسیم‌بندی دینامیک MIG، توانسته‌اند مشکل کمبود منابع GPU را برطرف کنند و در نتیجه، اقتصاد و کارایی سیستم خود را به نحو چشمگیری ارتقاء دهند.

در این مطالعه موردی، نویسندگان توضیح می‌دهند که چگونه با بهره‌گیری از فناوری تقسیم‌بندی دینامیک در فناوری MIG (معروف به Multi-Instance GPU)، توانسته‌اند واحدهای بزرگ GPU مانند NVIDIA A100 و H100 را به چند قسمت مجزا و ایزوله تقسیم کنند. این روش امکان می‌دهد که چندین کار کوچک و هم‌زمان روی یک GPU واحد اجرا شوند، بدون آنکه با هم تداخل داشته باشند و منابع آن‌ها به صورت بهینه استفاده شود. این تکنیک به خصوص در شرایطی که نیاز به اجرای چند سمت‌گرای کوچک و هم‌زمان باشد، نقش کلیدی ایفا می‌کند.

استفاده از این فناوری نه تنها بهره‌وری را افزایش داد، بلکه هزینه‌های مربوط به خرید و نگهداری سخت‌افزارهای گران‌قیمت را نیز کاهش داد. مدیران و تیم‌های فنی توانستند با تقسیم‌بندی دینامیک منابع، نیازهای متنوع پروژه‌ها را برآورده کنند و هم‌زمان از کمبود منابع GPU جلوگیری نمایند. این رویکرد، نمونه‌ای از نوآوری و بهره‌برداری هوشمندانه از فناوری‌های جدید است که اثربخشی عملیات را به میزان قابل توجهی بهبود می‌بخشد.

در نتیجه، این راه‌کار، یک استراتژی اثبات‌شده برای مدیریت منابع GPU در محیط‌های پیچیده و حساس است. فناوری تقسیم‌بندی دینامیک MIG در واقع، یک انقلاب در نحوه استفاده از منابع سخت‌افزاری است که می‌تواند به شکل چشمگیری هزینه‌ها و زمان‌های انتظار را کاهش دهد و عملکرد کلی سیستم را تقویت کند.

#هوش_مصنوعی #مدیریت_منابع #GPU #کبرنامه‌نویسی

🟣لینک مقاله:
https://ku.bz/h4B9DHKH0

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Medium

GPU Starvation in Kubernetes: How Dynamic MIG Partitioning Saved Our GPU Budget

In Kubernetes clusters, GPUs are expensive. Really expensive. And when your data science team is fighting over GPU resources like it’s…

75 views11:30

About

Blog

Apps

Platform