Ранее уже писал про шаринг GPU в Kubernetes и репостил про сложности мониторинга. Сейчас наткнулся на более зрелый проект — k8s-vGPU-scheduler, который теперь называется Project HAMi (Heterogeneous AI Computing Virtualization Middleware).
- Time slicing — просто в конфигурации, но нет изоляции и плохо с производительностью.
- MPS — поддерживает параллельные вычисления, но снова нет изоляции.
- MIG — есть изоляция, но нужна статичная конфигурация ноды, и работает только на дорогих картах.
- vGPU — платное, требует виртуализации, не вписывается в kubernetes-native подход.
- Использование vGPU с любым значением памяти
- Гибкая конфигурация нагрузок: тип карты, affinity и т.д.
- Метрики GPU на уровне контейнеров с готовыми дашбордами
- Динамический MIG — без ребутов и статических настроек
- Работает с любыми видеокартами, не только A100
- Поддержка NVLink уже на подходе
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍4❤2🦄1
– argocd-server теперь один бинарник
– убрали redis
– добавили lua-плагины
– много упрощений вокруг rbac
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍8❤2🦄2 2
Forwarded from Кубернетичек
Все, 65к нод не модно. Eks говорит, мы предоставляем кластера со 100к нод https://aws.amazon.com/blogs/containers/under-the-hood-amazon-eks-ultra-scale-clusters/. Для этого нужно: использовать tmpfs, шардировать ключи (разделить кластера etcd по ключам в kube api), пенести транзакционную модель на кастомный плагин, дождать изменений в кубе 1.31 и 1.33 с констистентным чтением и стриминг пакетов, поправить индексацию в популярных куб контроллер. И вуаля)
Amazon
Under the hood: Amazon EKS ultra scale clusters | Amazon Web Services
This post was co-authored by Shyam Jeedigunta, Principal Engineer, Amazon EKS; Apoorva Kulkarni, Sr. Specialist Solutions Architect, Containers and Raghav Tripathi, Sr. Software Dev Manager, Amazon EKS. Today, Amazon Elastic Kubernetes Service (Amazon EKS)…
❤2 2 1
🚀 А вы знали, что Karpenter работает не только в AWS?
💡 Появился провайдер для GCP, добавляющий поддержку Karpenter в GKE — https://github.com/cloudpilot-ai/karpenter-provider-gcp
Также есть провайдер под Azure
Что умеет GCP-провайдер:
📦 Smart node provisioning and autoscaling
💸 Cost-optimized instance selection
🔌 Deep GCP service integration
⚡ Fast node startup and termination
Также есть провайдер под Azure
Что умеет GCP-провайдер:
💸 Cost-optimized instance selection
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - cloudpilot-ai/karpenter-provider-gcp: Google Cloud Karpenter Provider
Google Cloud Karpenter Provider. Contribute to cloudpilot-ai/karpenter-provider-gcp development by creating an account on GitHub.
1❤4 2👍1
Forwarded from Dmitry Ibragimov
А, хотел с вам поделиться, в начале года форкнули наконец нормально Lens и продолжают развивать - https://freelensapp.github.io/ . Всем, кому с кубером надо работать must have
👍8 4❤2 2
Forwarded from Mikhail Barabanov
Там это. Нашли новый, быстрее известных, алгоритм поиска короткого пути на графе...
https://www.alphaxiv.org/abs/2504.17033
https://www.alphaxiv.org/abs/2504.17033
alphaXiv
Breaking the Sorting Barrier for Directed Single-Source Shortest Paths
View 1 comment: This appears to be a non-standard assumption and unclear if feasible in non-exponential modification. See the corresponding discussion on StackExchange:
❤2👍2🦄1 1
Forwarded from SmartData — конференция по инженерии данных
#видеозаписи
Открываем новую видеозапись выступления:
Александр Токарев — Пишем свой cluster manager для Apache Spark
YouTube | VK Видео
Скачать презентацию с сайта SmartData
Открываем новую видеозапись выступления:
Александр Токарев — Пишем свой cluster manager для Apache Spark
YouTube | VK Видео
Скачать презентацию с сайта SmartData
YouTube
Александр Токарев — Пишем свой cluster manager для Apache Spark
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/Vsou2A
Apache Spark — это развитый фреймворк для обработки больших объемов неструктурированных данных. Одно из его достоинств — способность…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/Vsou2A
Apache Spark — это развитый фреймворк для обработки больших объемов неструктурированных данных. Одно из его достоинств — способность…
👍3 2❤1
Они пишут свой S3 backend, оптимизированный под HDD, и позиционируются как «простой и предсказуемый» сервис без лишних фич.
📦 Используется модель fair use — выкачка данных не должна превышать объём хранимых. Главное — не использовать как CDN.
Please open Telegram to view this post
VIEW IN TELEGRAM
Storadera
Storadera | Fast & Secure Cloud Storage
Storadera is a fast and secure S3 compatible cloud storage at an affordable price. Always instantly available.
8❤2👍2🦄2 1
Forwarded from Pavel Klyuev
YouTube
Interview with Cloud Architect in 2025
Cloud Architects
https://linkgraph.net
All lines soon printed on merch... https://posix.store/
https://www.patreon.com/ProgrammersAreAlsoHuman
Interview with a Cloud Architects in 2025 with Azuros Cloudapi - aired on © The CTO.
Scripts inspired by X account…
https://linkgraph.net
All lines soon printed on merch... https://posix.store/
https://www.patreon.com/ProgrammersAreAlsoHuman
Interview with a Cloud Architects in 2025 with Azuros Cloudapi - aired on © The CTO.
Scripts inspired by X account…
6❤2👍1
Forwarded from Кубернетичек
https://kubernetes.io/blog/2025/09/04/kubernetes-v1-34-introducing-psi-metrics-beta/
Я хотел написать про psi, но погуглил, кажется вот в этих постах написали более интересно, чем сделал бы я.
https://xn--r1a.website/azalio_tech/5
https://xn--r1a.website/troubleperf/73
То есть теперь нативно можно получать более подробную информацию о том, как вашиподы контейнеры процессы контролируемые кубом "страдают" от нехватки ресурсов, и страдают ли.
Я хотел написать про psi, но погуглил, кажется вот в этих постах написали более интересно, чем сделал бы я.
https://xn--r1a.website/azalio_tech/5
https://xn--r1a.website/troubleperf/73
То есть теперь нативно можно получать более подробную информацию о том, как ваши
Kubernetes
Kubernetes v1.34: PSI Metrics for Kubernetes Graduates to Beta
As Kubernetes clusters grow in size and complexity, understanding the health and performance of individual nodes becomes increasingly critical. We are excited to announce that as of Kubernetes v1.34, Pressure Stall Information (PSI) Metrics has graduated…
1❤2👍2🦄1
🐬 MySQL/Percona 5.7: подводные камни при очистке и восстановлении
Когда база на диске разрастается сильнее, чем сами таблицы, в глаза бросается огромный ibdata1.
Кажется логичным удалить файл и перезапустить сервер, но это гарантированно ломает системные таблицы и кладёт MySQL.
✅ Че делать-то?
📦 Бэкап
— Дампим только прикладные БД (без mysql, sys, performance_schema, information_schema).
— Пользователей сохраняем отдельно: pt-show-grants или mysqlpump --users.
🔄 Инициализация
— Чистый datadir →
🌍 Часовой пояс
— Всегда UTC (`TZ=UTC`, `/etc/localtime → UTC`).
Все упражнения выполнялись не на продовой базе. Подскажите, как вы решаете проблему роста данных под мускулем? или это проблема старых версий?
Когда база на диске разрастается сильнее, чем сами таблицы, в глаза бросается огромный ibdata1.
Кажется логичным удалить файл и перезапустить сервер, но это гарантированно ломает системные таблицы и кладёт MySQL.
✅ Че делать-то?
📦 Бэкап
— Дампим только прикладные БД (без mysql, sys, performance_schema, information_schema).
— Пользователей сохраняем отдельно: pt-show-grants или mysqlpump --users.
🔄 Инициализация
— Чистый datadir →
mysqld --initialize-insecure → root без пароля. 🌍 Часовой пояс
— Всегда UTC (`TZ=UTC`, `/etc/localtime → UTC`).
Все упражнения выполнялись не на продовой базе. Подскажите, как вы решаете проблему роста данных под мускулем? или это проблема старых версий?
4❤1👍1🦄1 1
Please open Telegram to view this post
VIEW IN TELEGRAM