🔵 عنوان مقاله
From utilization to PSI: Rethinking resource starvation monitoring in Kubernetes
🟢 خلاصه مقاله:
این مقاله نشان میدهد تکیه بر شاخصهای غیرمستقیم مانند استفاده از CPU/Memory و requests/limits در Kubernetes اغلب تصویر غلطی از «گرسنگی منابع» میدهد و پیشنهاد میکند به جای آن از PSI در Linux استفاده شود. PSI با اندازهگیری زمانهای توقف تسکها هنگام انتظار برای CPU، Memory یا I/O (بهصورت avg10/avg60/avg300 و مقادیر some/full) خودِ «رقابت بر سر منابع» را نشان میدهد، نه صرفاً پر بودن ظرفیت. این کار مواردی مانند تأخیر ناشی از reclaim حافظه، صفهای I/O، یا اثر همسایه پرسروصدا را که پشت نمودارهای استفاده پنهان میمانند، آشکار میکند. در عمل میتوان PSI را در سطح نود و cgroup جمعآوری کرد (مثلاً با Prometheus node-exporter) و با Grafana دید، آستانههای هشدار و SLOها را بر مبنای فشار واقعی تعریف کرد، و حتی HPA و اتواسکیلینگ کلاستر را به فشار پایدار گره زد. نتیجه: برای تشخیص و رفع رقابت واقعی در Kubernetes باید «فشار» را سنجید و تفسیر کرد، و در کنار آن از شاخصهای استفاده برای تکمیل تصویر بهره گرفت.
#Kubernetes
#Linux
#PSI
#Observability
#SRE
#ResourceManagement
#Prometheus
#CloudNative
🟣لینک مقاله:
https://ku.bz/Gn7372R9X
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
From utilization to PSI: Rethinking resource starvation monitoring in Kubernetes
🟢 خلاصه مقاله:
این مقاله نشان میدهد تکیه بر شاخصهای غیرمستقیم مانند استفاده از CPU/Memory و requests/limits در Kubernetes اغلب تصویر غلطی از «گرسنگی منابع» میدهد و پیشنهاد میکند به جای آن از PSI در Linux استفاده شود. PSI با اندازهگیری زمانهای توقف تسکها هنگام انتظار برای CPU، Memory یا I/O (بهصورت avg10/avg60/avg300 و مقادیر some/full) خودِ «رقابت بر سر منابع» را نشان میدهد، نه صرفاً پر بودن ظرفیت. این کار مواردی مانند تأخیر ناشی از reclaim حافظه، صفهای I/O، یا اثر همسایه پرسروصدا را که پشت نمودارهای استفاده پنهان میمانند، آشکار میکند. در عمل میتوان PSI را در سطح نود و cgroup جمعآوری کرد (مثلاً با Prometheus node-exporter) و با Grafana دید، آستانههای هشدار و SLOها را بر مبنای فشار واقعی تعریف کرد، و حتی HPA و اتواسکیلینگ کلاستر را به فشار پایدار گره زد. نتیجه: برای تشخیص و رفع رقابت واقعی در Kubernetes باید «فشار» را سنجید و تفسیر کرد، و در کنار آن از شاخصهای استفاده برای تکمیل تصویر بهره گرفت.
#Kubernetes
#Linux
#PSI
#Observability
#SRE
#ResourceManagement
#Prometheus
#CloudNative
🟣لینک مقاله:
https://ku.bz/Gn7372R9X
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
blog.zmalik.dev
From Utilization to PSI: Rethinking Resource Starvation Monitoring in Kubernetes
From Utilization Confusion to PSI Clarity in Kubernetes