Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!
https://leetgpu.com/
@data_analysis_ml
#cuda #gpu #cpu #playground
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤7🔥7⚡1
📖 Новая работа ByteDance + Harvard: *Mycroft: Tracing Dependencies in Collective Communication Towards Reliable LLM Training*
Mycroft - система, которая помогает понять, почему обучение LLM на кластере GPU тормозит или падает.
🚧 Проблема
При распределённом обучении сотни GPU постоянно обмениваются данными через библиотеку NCCL. Она работает как «чёрный ящик»: при сбое видно только таймауты или падение скорости, но непонятно, где именно сбой.
🛠 Решение — Mycroft
- «Подглядывает» внутрь процесса обмена данными
- Каждые 100 мс пишет лёгкие статусы: сколько данных подготовлено, отправлено и завершено
- Если прогресс застопорился → сразу сигнал
- Отслеживает зависимости между GPU и определяет: проблема в конкретной карте, сетевой карте или шине
⚡ Результаты
- В тестах на 32 GPU и в проде у ByteDance
- Находит сбой за ~**15 секунд**
- Указывает точный компонент за <**20 секунд**
- Нагрузка на обучение почти нулевая
🔗 https://arxiv.org/abs/2509.03018
#AI #LLM #GPU #DistributedTraining #ByteDance #Harvard
Mycroft - система, которая помогает понять, почему обучение LLM на кластере GPU тормозит или падает.
🚧 Проблема
При распределённом обучении сотни GPU постоянно обмениваются данными через библиотеку NCCL. Она работает как «чёрный ящик»: при сбое видно только таймауты или падение скорости, но непонятно, где именно сбой.
🛠 Решение — Mycroft
- «Подглядывает» внутрь процесса обмена данными
- Каждые 100 мс пишет лёгкие статусы: сколько данных подготовлено, отправлено и завершено
- Если прогресс застопорился → сразу сигнал
- Отслеживает зависимости между GPU и определяет: проблема в конкретной карте, сетевой карте или шине
⚡ Результаты
- В тестах на 32 GPU и в проде у ByteDance
- Находит сбой за ~**15 секунд**
- Указывает точный компонент за <**20 секунд**
- Нагрузка на обучение почти нулевая
🔗 https://arxiv.org/abs/2509.03018
#AI #LLM #GPU #DistributedTraining #ByteDance #Harvard
❤6🔥6👍5
Исследователи NVIDIA перенесли модель владения Rust в GPU-kernels.
Paper: “Fearless Concurrency on the GPU”. В нём представлен cuTile Rust.
Проблема была в том, что при написании кастомных GPU-ядер на Rust разработчикам фактически приходилось выходить за пределы гарантий безопасности Rust.
cuTile Rust пытается это исправить:
* mutable outputs разбиваются на непересекающиеся части
* запуск kernels сохраняет правила ownership от host до device
* при необходимости остаются локальные opt-out механизмы для низкоуровневого контроля
Производительность тоже держится на уровне:
* 7 TB/s для element-wise операций на NVIDIA B200
* 2 PFlop/s для GEMM, это 96% от cuBLAS
* результат сопоставим с cuTile Python в пределах погрешности измерений
Авторы также собрали Grout, inference engine поверх cuTile Rust, и прогнали реальные модели:
* 171 tokens/s для Qwen3-4B на RTX 5090
* 82 tokens/s для Qwen3-32B на B200
* конкурентный уровень рядом с vLLM и SGLang
Итог - безопасный и идиоматичный Rust почти на полной CUDA-производительности.
Для Rust в ML-инфраструктуре это большой шаг.
http://arxiv.org/abs/2606.15991
#Rust #RustLang #GPU #CUDA #MachineLearning #SystemsProgramming #NVIDIA
@data_analysis_ml
Paper: “Fearless Concurrency on the GPU”. В нём представлен cuTile Rust.
Проблема была в том, что при написании кастомных GPU-ядер на Rust разработчикам фактически приходилось выходить за пределы гарантий безопасности Rust.
cuTile Rust пытается это исправить:
* mutable outputs разбиваются на непересекающиеся части
* запуск kernels сохраняет правила ownership от host до device
* при необходимости остаются локальные opt-out механизмы для низкоуровневого контроля
Производительность тоже держится на уровне:
* 7 TB/s для element-wise операций на NVIDIA B200
* 2 PFlop/s для GEMM, это 96% от cuBLAS
* результат сопоставим с cuTile Python в пределах погрешности измерений
Авторы также собрали Grout, inference engine поверх cuTile Rust, и прогнали реальные модели:
* 171 tokens/s для Qwen3-4B на RTX 5090
* 82 tokens/s для Qwen3-32B на B200
* конкурентный уровень рядом с vLLM и SGLang
Итог - безопасный и идиоматичный Rust почти на полной CUDA-производительности.
Для Rust в ML-инфраструктуре это большой шаг.
http://arxiv.org/abs/2606.15991
#Rust #RustLang #GPU #CUDA #MachineLearning #SystemsProgramming #NVIDIA
@data_analysis_ml
❤11👍7🔥5