Neurohive (VK)
Nvidia представили GANcraft — нейросеть для создания фотореалистичных изображений на основе трехмерных блочных миров, подобных мирам в Minecraft.
#Nvidia #Development
Nvidia представили GANcraft — нейросеть для создания фотореалистичных изображений на основе трехмерных блочных миров, подобных мирам в Minecraft.
#Nvidia #Development
Forwarded from Machinelearning
https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/amd/debug.md
А здесь большое руководству по устранению различных неполадок для NVIDIA https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/nvidia/debug.md
@ai_machinelearning_big_data
#amd #NVIDIA #Troubleshooting
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
FlashInfer - это библиотека для ускорения работы с LLM, созданная NVIDIA, чтобы объединить скорость обработки на GPU и гибкость для разработчиков. Еt главная цель — сократить время вывода текста, одновременно позволяя инженерам быстро внедрять новые алгоритмы и адаптировать решения под разные задачи.
Ее архитектура спроектирована так, чтобы оставаться актуальной при появлении новых алгоритмов: будь то методы повторного использования кэша или эксперименты с форматами внимания. Плюс к этому, библиотека легковесна, она не требует установки лишних зависимостей, а ее API напоминает стандартные инструменты PyTorch.
FlashInfer базируется на 2 принципах : эффективное управление памятью и динамическое планирование вычислений. Библиотека оптимизирует хранение KV-cache через блочно-разреженные структуры, уменьшая объем лишних обращений к памяти.
Это особенно важно при обработке запросов с разной длиной текста. Также используется технология JIT-компиляции, которая на лету генерирует оптимизированные CUDA-ядра под конкретную задачу.
Архитектура FlashInfer разбита на 4 модуля: Attention, GEMM, Communication и Token sampling.
FlashInfer поддерживает PyTorch через собственные операторы и DLPack API, тем самым упрощает внедрение в фреймворки vLLM и SGLang. Благодаря разделению процесса на этапы «планирования» и «запуска» библиотека минимизирует задержки: на первом шаге выбирается оптимальное ядро под параметры запроса, а затем оно переиспользуется для последующих аналогичных задач.
@ai_machinelearning_big_data
#AI #ML #LLM #FlashInfer #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌍 Битва за ИИ-вычисления: 🇺🇸 США против 🇨🇳 Китая
🇺🇸 США
На сегодня именно США контролируют большую часть мировой мощности для обучения ИИ. Nvidia и её софт-экосистема (CUDA, PyTorch, Triton) остаются эталоном и формируют глобальный стандарт.
🇨🇳 Китай
Инвестиции в AI-инфраструктуру в 2025 году могут достичь $98 млрд (+48% к 2024):
- $56 млрд — государственные программы
- $24 млрд — ведущие интернет-гиганты
Но превратить такие вложения в сопоставимую с США «тренировочную мощь» мешают экспортные ограничения и технологический разрыв.
⚡ Ставка на свои чипы
Китай усиливает упор на собственные ускорители, особенно для инференса. Huawei в 2025 году начнёт массовые поставки Ascend 910C — сборки из двух кристаллов 910B.
🔑 Почему США впереди
- Аппаратное превосходство: даже урезанный для экспорта Nvidia H20 опережает Huawei Ascend 910B по памяти и пропускной способности — критическим параметрам для обучения больших моделей.
- Софт-разрыв: зрелость Nvidia-стека позволяет выжимать максимум из «железа», тогда как Huawei из-за сырого ПО теряет эффективность даже при неплохих характеристиках.
📌 Итог: Китай вкладывает рекордные суммы и наращивает мощности, но США сохраняют лидерство благодаря связке топ-железа и зрелого ПО. Китайские решения пригодны для инференса, но по обучению крупнейших моделей разрыв пока очевиден.
#AI #Compute #Geopolitics #Nvidia #Huawei
🇺🇸 США
На сегодня именно США контролируют большую часть мировой мощности для обучения ИИ. Nvidia и её софт-экосистема (CUDA, PyTorch, Triton) остаются эталоном и формируют глобальный стандарт.
🇨🇳 Китай
Инвестиции в AI-инфраструктуру в 2025 году могут достичь $98 млрд (+48% к 2024):
- $56 млрд — государственные программы
- $24 млрд — ведущие интернет-гиганты
Но превратить такие вложения в сопоставимую с США «тренировочную мощь» мешают экспортные ограничения и технологический разрыв.
⚡ Ставка на свои чипы
Китай усиливает упор на собственные ускорители, особенно для инференса. Huawei в 2025 году начнёт массовые поставки Ascend 910C — сборки из двух кристаллов 910B.
🔑 Почему США впереди
- Аппаратное превосходство: даже урезанный для экспорта Nvidia H20 опережает Huawei Ascend 910B по памяти и пропускной способности — критическим параметрам для обучения больших моделей.
- Софт-разрыв: зрелость Nvidia-стека позволяет выжимать максимум из «железа», тогда как Huawei из-за сырого ПО теряет эффективность даже при неплохих характеристиках.
📌 Итог: Китай вкладывает рекордные суммы и наращивает мощности, но США сохраняют лидерство благодаря связке топ-железа и зрелого ПО. Китайские решения пригодны для инференса, но по обучению крупнейших моделей разрыв пока очевиден.
#AI #Compute #Geopolitics #Nvidia #Huawei
🤖 Будущее за SLM, а не LLM? NVIDIA делает ставку на маленькие модели
Агенты в реальных сценариях выполняют ограниченный набор рутинных задач.
Для этого большие языковые модели избыточны - как суперкомпьютер для решения задач по школьной математике.
📌 Логика NVIDIA:
- Малые языковые модели (**SLM**) уже отлично справляются с простыми и повторяющимися задачами
- Экономия 10–30x за счёт правильного размера модели
- Для сложных рассуждений всё ещё можно подключить крупные LLM
Итог: будущее агентов - в гибридной схеме, где малые модели берут на себя повседневку, а большие включаются только тогда, когда действительно нужно.
Статья: arxiv.org/abs/2506.02153
@ai_machinelearning_big_data
#nvidia #slm #llm #aiagents
Агенты в реальных сценариях выполняют ограниченный набор рутинных задач.
Для этого большие языковые модели избыточны - как суперкомпьютер для решения задач по школьной математике.
📌 Логика NVIDIA:
- Малые языковые модели (**SLM**) уже отлично справляются с простыми и повторяющимися задачами
- Экономия 10–30x за счёт правильного размера модели
- Для сложных рассуждений всё ещё можно подключить крупные LLM
Итог: будущее агентов - в гибридной схеме, где малые модели берут на себя повседневку, а большие включаются только тогда, когда действительно нужно.
Статья: arxiv.org/abs/2506.02153
@ai_machinelearning_big_data
#nvidia #slm #llm #aiagents
Forwarded from Machinelearning
Теперь каждый чип будет заточен под конкретный этап LLM-инференса.
Инференс делится на два шага:
- Prefill - первая стадия. Требует огромной вычислительной мощности, но почти не использует память.
- Decode - вторая стадия. Наоборот, сильно нагружает память, но вычислений нужно меньше.
Раньше, например, R200 объединял в одном GPU и мощные вычислительные блоки, и много памяти. В итоге это было дорого и неэффективно:
- при Prefill простаивает память,
- при Decode — простаивают вычислительные блоки.
- Rubin CPX - оптимизирован для Prefill
• 20 PFLOPS вычислений
• 128 GB GDDR7
• 2 TB/s пропускная способность
- R200 — GPU под Decode
• 288 GB HBM4
• 20.5 TB/s памяти
📆 Планы компании:
- **2024–2025**-— линейка Blackwell (B200, GB300): рост вычислений и памяти.
- 2026–2027 - Rubin разделится:
• VR200 — для Decode (максимум HBM).
• CPX — для Prefill (много вычислений, дешёвая память).
- 2027 — VR300 Ultra: 66.7 PFLOPS и 1024 GB HBM4E.
Nvidia перестраивает линейку так, чтобы каждый GPU работал максимально эффективно именно под свой этап инференса.
#Nvidia #GPU #AI #Blackwell #Rubin #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM