DevOps Labdon
529 subscribers
29 photos
4 videos
2 files
1K links
👑 DevOps Labdon

حمایت مالی:
https://www.coffeete.ir/mrbardia72

ادمین:
@mrbardia72
Download Telegram
🔵 عنوان مقاله
From utilization to PSI: Rethinking resource starvation monitoring in Kubernetes

🟢 خلاصه مقاله:
این مقاله نشان می‌دهد تکیه بر شاخص‌های غیرمستقیم مانند استفاده از CPU/Memory و requests/limits در Kubernetes اغلب تصویر غلطی از «گرسنگی منابع» می‌دهد و پیشنهاد می‌کند به جای آن از PSI در Linux استفاده شود. PSI با اندازه‌گیری زمان‌های توقف تسک‌ها هنگام انتظار برای CPU، Memory یا I/O (به‌صورت avg10/avg60/avg300 و مقادیر some/full) خودِ «رقابت بر سر منابع» را نشان می‌دهد، نه صرفاً پر بودن ظرفیت. این کار مواردی مانند تأخیر ناشی از reclaim حافظه، صف‌های I/O، یا اثر همسایه پرسر‌وصدا را که پشت نمودارهای استفاده‌ پنهان می‌مانند، آشکار می‌کند. در عمل می‌توان PSI را در سطح نود و cgroup جمع‌آوری کرد (مثلاً با Prometheus node-exporter) و با Grafana دید، آستانه‌های هشدار و SLOها را بر مبنای فشار واقعی تعریف کرد، و حتی HPA و اتواسکیلینگ کلاستر را به فشار پایدار گره زد. نتیجه: برای تشخیص و رفع رقابت واقعی در Kubernetes باید «فشار» را سنجید و تفسیر کرد، و در کنار آن از شاخص‌های استفاده برای تکمیل تصویر بهره گرفت.

#Kubernetes
#Linux
#PSI
#Observability
#SRE
#ResourceManagement
#Prometheus
#CloudNative

🟣لینک مقاله:
https://ku.bz/Gn7372R9X


👑 @DevOps_Labdon
🔵 عنوان مقاله
Advanced analytics using Amazon CloudWatch Logs Insights (9 minute read)

🟢 خلاصه مقاله:
** خلاصه فارسی: Amazon CloudWatch Logs Insights با پشتیبانی از OpenSearch Piped Processing Language و SQL، تحلیل لاگ‌ها را منعطف‌تر و قدرتمندتر کرده است. این قابلیت‌ها امکان همبستگی سریع‌تر رویدادها، دست‌کاری غنی‌تر داده‌ها (فیلتر، تجمع و تبدیل)، و پیاده‌سازی سناریوهای پیشرفته تشخیص ناهنجاری را فراهم می‌کنند. علاوه بر این، Generative AI با تبدیل درخواست‌های زبان طبیعی به کوئری‌های قابل اجرا، خلاصه‌سازی نتایج و اتصال بین چند منبع لاگ، زمان دستیابی به بینش را به‌طور چشمگیری کاهش می‌دهد.

#AmazonCloudWatch #LogsInsights #OpenSearch #PPL #SQL #GenerativeAI #Observability #AnomalyDetection

🟣لینک مقاله:
https://aws.amazon.com/blogs/mt/advanced-analytics-using-amazon-cloudwatch-logs-insights/?utm_source=tldrdevops


👑 @DevOps_Labdon
🔵 عنوان مقاله
kubectl-klock – Readable kubectl watch output

🟢 خلاصه مقاله:
ابزار kubectl-klock جریان رویدادهای kubectl get --watch را به یک نمایش زنده، خوانا و کم‌نویز تبدیل می‌کند تا به‌جای تکیه بر polling، تغییرات منابع Kubernetes را به‌صورت پیوسته و قابل دنبال‌کردن ببینید. این رویکرد در زمان rollout، رفع اشکال و پایش Pod/Deployment/Job باعث می‌شود گذارها و نتیجه‌ها آشکارتر شوند و واکنش سریع‌تر باشد. kubectl-klock مانند یک لایه سبک روی kubectl عمل می‌کند و با همان الگوهای دستور کار می‌کند؛ بنابراین با کمترین یادگیری، خوانایی و آگاهی لحظه‌ای شما را بهبود می‌دهد.

#Kubernetes #kubectl #DevOps #SRE #Observability #CLI #Streaming #Productivity

🟣لینک مقاله:
https://ku.bz/FHRmb31F0


👑 @DevOps_Labdon
🔵 عنوان مقاله
Enhancing Kubernetes Event Management with Custom Aggregation

🟢 خلاصه مقاله:
این مطلب در kubernetes.io نشان می‌دهد چگونه می‌توان یک سامانه‌ی تجمیع سفارشی برای Eventهای Kubernetes ساخت تا محدودیت‌های پیش‌فرض را دور بزند و سیگنال‌ها را قابل استفاده‌تر کند. ایده این است که رویدادهای خام و پرتکرار از طریق API خوانده شوند، بر اساس کلیدهایی مانند involved object، reason، namespace و الگوی پیام گروه‌بندی و نرمال‌سازی شوند، رویدادهای تکراری در پنجره‌های زمانی حذف و شمارش شوند، و در نهایت رکوردهای خلاصه و ماندگار تولید شود.

با ذخیره‌سازی این خلاصه‌ها در یک backend پایدار و تعریف سیاست‌های نگهداشت، تاریخچه‌ی معنادار برای تحلیل و عیب‌یابی حفظ می‌شود. سامانه می‌تواند API و داشبورد برای جست‌وجو و روندیابی ارائه دهد، به هشداردهی متصل شود تا به‌جای جهش‌های لحظه‌ای روی الگوهای پایدار یا غیرعادی هشدار دهد، و متریک‌ها را برای ابزارهای observability صادر کند. ملاحظات عملی شامل RBAC مناسب، کنترل فشار روی API server، کش کارآمد، HA و پشتیبانی چندکلاستری است. یک controller مبتنی بر CRD نیز می‌تواند AggregatedEventها را نگه دارد و با Jobهای پس‌زمینه سیاست‌های retention را اعمال کند. نتیجه، کاهش نویز، حفظ تاریخچه فراتر از ظرفیت پیش‌فرض و بهبود قابلیت مشاهده و عملیات SRE/DevOps است.

#Kubernetes #EventManagement #Aggregation #Observability #DevOps #SRE #CloudNative #Monitoring

🟣لینک مقاله:
https://ku.bz/HCfkK0GTC


👑 @DevOps_Labdon
3