Идея проста: собрать тысячи Ascend-чипов в **SuperPod**-стойки с новой шиной UnifiedBus, чтобы они работали как единый ускоритель.
В 2026 году Huawei обещает SuperPod 950 с 8,192 чипами, что даст:
- в 6,7 раза больше вычислительной мощности,
- в 15 раз больше памяти,
- в 62 раза выше пропускную способность,
чем у Nvidia NVL144.
К 2028-му скорость связи между чипами хотят поднять до 4 Тбит/с (у Nvidia сейчас 1,8).
В будущем Huawei говорит даже о кластерах из миллиона чипов.
⚠️ Но главное слабое место — производство. После санкций компания лишилась доступа к фабрикам TSMC. Попытка сделать 5нм чип Ascend 910D провалилась: слишком мало годных кристаллов выходит с пластин. Последний реальный прорыв — 7нм чип в Mate 60 Pro в 2023 году.
У Китайцев есть амбиции и архитектура, но нет надёжного производства. Это и есть главный барьер на пути к конкуренции с Nvidia.
@ai_machinelearning_big_data
#Huawei #Nvidia #AIChips #SuperPod
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥78❤30👍17❤🔥3💘1
Media is too big
VIEW IN TELEGRAM
«Единственное, о чём я жалею, что не дал ему больше денег.
Когда речь идёт о проектах, в которых участвует Илон, ты хочешь быть частью этого. Он дал нам шанс инвестировать в xAI и это инвестиция в действительно великое будущее. Это не просто партнёрское финансирование, это вера в идею».
Крупнейшие компании Amazon, Microsoft и Google - управляют бизнесом на несколько триллионов долларов и тратят около сотни миллиадров на инфраструктуру дата-центров.
Но сейчас происходит тектонический сдвиг:
💡 переход от CPU-систем к генеративным AI-платформам на GPU, и этот переход только начинается.
Nvidia уже продала оборудования на сотни миллиардов долларов для этой новой эры,
но на фоне многотриллионного рынка AI-инфраструктуры и это тольео начало пути.
Мир вступает в долгосрочный цикл экспансии инвестиций в ИИ,
Nvidia - в самом центре этого колоссального рынка. 🚀
@ai_machinelearning_big_data
#Nvidia #xAI #ElonMusk #JensenHuang #AI #инвестиции #технологии #GPU
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87❤22🔥21😁9🥱6💘2🐳1😭1
Глава NVIDIA сегодня вручил Маску в штаб-квартире SpaceX самый маленький в мире ИИ-суперкомпьютер.
Ещё недавно такая производительность обеспечивалась целой комнатой серверов.
Теперь она помещается в коробку размером с рабочий ПК.
Такой компактный суперкомпьютер может использоваться для локального обучения и инференса нейросетей без дата-центров и облаков.
NVIDIA называет это началом новой эры персональных ИИ-ускорителей.
Мужчины честной судьбы встретились, в честь начала мировых поставок DGX Spark, которая начнется уже в эту среду.
Этот момент отсылает к истокам: в 2016 году именно Маск и его команда получили первый DGX-1 - тот самый суперкомпьютер, с которого началась эпоха ИИ-ускорителей NVIDIA.
Эх, нам бы такую коробочку)
Подробнее о первых поставках для разработчиков, исследователей, университетов в live-блоге Nvidia: https://blogs.nvidia.com/blog/live-dgx-spark-delivery/
@ai_machinelearning_big_data
#NVIDIA #JensenHuang #ElonMusk #SpaceX #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤116👍47🔥25😁5😴4🤔3💘2
Модель обучена на разнообразных мультимодальных данных и может объединять разные типы входных сигналов в общее векторное представление.
- Поддержка всех типов данных: текст, изображение, аудио, видео.
- Основана на архитектуре Qwen Omni (Thinker-модуль, без генерации текста).
- Контекст - до 32 768 токенов, размер embedding — 2048.
- Оптимизирована под GPU, поддерживает FlashAttention 2.
Это делает её идеальной для:
- кросс-модального поиска (поиск текста по видео или изображению);
- улучшения RAG-проектов;
- систем мультимодального понимания контента.
Просто, быстро и эффективно - всё в одном открытом решении.
🌐 Открытая модель: https://huggingface.co/nvidia/omni-embed-nemotron-3b
@ai_machinelearning_big_data
#crossmodal #retrieval #openAI #NVIDIA #OmniEmbed #multimodal #AIModels #OpenSource #Search #UnifiedEmbedding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🔥39❤15🥰5💘2
Ошеломляющий контраст: одна NVIDIA ($4.6 трлн) сейчас стоит дороже, чем все банки США и Канады вместе ($4.2 трлн) 🫧
@ai_machinelearning_big_data
#nvidia
@ai_machinelearning_big_data
#nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥175😁61🤔38😨26❤15👏13🎉7🤩7🥱7👍5❤🔥2
OmniVinci - модель, способная одновременно понимать и обрабатывать разные типы информации: текст, изображения, видео и звук.
Модель крайне эффективна, несмотря на то, что была обучена всего на 200 млрд. токенов (что в 6 раз меньше, чем у Qwen2.5-Omni - 1.2 трлн.). Это стало возможным благодаря архитектурным фишкам и тщательному подходу к подготовке данных.
В основе OmniVinci 3 компонента:
Абляция показала, что вклад каждого элемента играет свою важную роль: базовая модель с простой конкатенацией токенов набирает в среднем 45.51 балла. Добавление TEG поднимает результат до 47.72 (+2.21), CRTE — до 50.25 (+4.74 от базовой), а финальный слой в виде OmniAlignNet доводит средний балл до 52.59, что в сумме дает прирост в 7.08 пункта.
Данные для обучения - 24 млн. диалогов, которые пропустили через систему, где отдельная LLM анализирует и объединяет описания из нескольких модальностей, создавая единую и корректную аннотацю.
Итоговый датасет на 36% состоял из изображений, на 21% из звуков, на 17% из речи, 15% - из смешанных данных и на 11% из видео.
В бенчах OmniVinci обошла всех конкурентов. На Worldsense модель набрала 48.23 балла против 45.40 у Qwen2.5-Omni. На Dailyomni - 66.50 против 47.45. В аудио-задачах OmniVinci тоже молодец: 58.40 в MMAR и 71.60 в MMAU.
В распознавании речи модель показала WER 1.7% на датасете LibriSpeech-clean.
Применение модели протестили на практике. В задаче классификации дефектов полупроводниковых пластин, OmniVinci достигла точности 98.1%, что лучше, чем у специализированной NVILA (97.6%), и у более крупную 40-миллиардную VILA (90.8%).
@ai_machinelearning_big_data
#AI #ML #NVIDIA #OmniVinci
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57❤22🔥13🤣3🤗3💅3🕊2
💴 Капитализация Nvidia превысила $5 трлн - впервые в истории компания достигла такой оценки.
За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка.
Пока все искали золото, Nvidia продавала лопаты - и стала самой дорогой компанией в мире.
@ai_machinelearning_big_data
#Nvidia
За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка.
Пока все искали золото, Nvidia продавала лопаты - и стала самой дорогой компанией в мире.
@ai_machinelearning_big_data
#Nvidia
👍175🎉64😁37🔥23❤20👏9🥱9🤔7🤩5😍2💅1
This media is not supported in your browser
VIEW IN TELEGRAM
С ним за столом сидели руководители Samsung и Hyundai.
@ai_machinelearning_big_data
#Nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤246👍70🍾44😁18🥰12🥱6🔥5👏5🗿3
Всё сводится к трём ключевым идеям:
1) Использовать Transformer Engine подменяет стандартные блоки на оптимизированные версии: меньше памяти, быстрее матричные операции, поддержка FP8/FP4. Это сразу увеличивает скорость обучения и инференса.
2) Масштабировать обучение до миллиардов параметров
Через FSDP и гибридные режимы параллелизма можно разнести модель по нескольким GPU или узлам. И главное, конфигурация уже готова, не нужно собирать всё вручную.
3) Экономить память за счёт sequence packing
Обычно биологические последовательности сильно различаются в длине, и половина батча забита паддингами. Packing позволяет «сжимать» батч, убирая пустые токены, итог: выше скорость, меньше VRAM.
Писать CUDA-ядра вручную никто не хочет. BioNeMo Recipes позволяют использовать привычный стек PyTorch + HuggingFace, но при этом получать производительность уровня «больших» фреймворков.
https://developer.nvidia.com/blog/scale-biology-transformer-models-with-pytorch-and-nvidia-bionemo-recipes/
@ai_machinelearning_big_data
#NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👌39❤22👍16🔥4🦄3👏2❤🔥1
NVIDIA совместно с Университетом Гонконга разработала ToolOrchestra - методику обучения дирижеров для ИИ-агентов, и выпустила на ее основе модель Orchestrator-8B.
Это модель, базирующаяся на архитектуре Qwen3 предназначена для оркестрации других моделей и инструментов. Вместо того чтобы решать задачу в одиночку, модель чередует этапы рассуждения с вызовом внешних инструментов.
В ее арсенале поисковые движки, интерпретаторы кода и другие LLM, от узкоспециализированных математических до универсальных гигантов Claude и Llama-Nemotron.
Обучение проводилось с помощью GRPO, который поощрял модель не только за точность, но и за экономическую эффективность.
В результате решение получилось в 2,5 раза быстрее и на 70% дешевле в эксплуатации, чем использование одной лишь флагманской модели для всех этапов задачи, а сама Orchestrator-8B набрала 37,1% в сложнейшем бенчмарке Humanity's Last Exam , обойдя GPT-5 (35,1%).
@ai_machinelearning_big_data
#AI #ML #LLM #Orchestrator #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤67👍35🔥11🦄3🤬2❤🔥1💘1
⚡️ Отличный ресурс, если хотите глубже понять, как работает параллельное исполнение на GPU.
Документация NVIDIA PTX раскрывает низкоуровневую модель выполнения: устройство команд, иерархию потоков, блоков, варпов, регистров и видов памяти.
Это базовый материал, без которого сложно разобраться, почему ядра GPU ведут себя именно так, как ведут, и как правильно писать высокопроизводительный код под CUDA.
Ссылка: https://docs.nvidia.com/cuda/parallel-thread-execution
@ai_machinelearning_big_data
#nvidia
Документация NVIDIA PTX раскрывает низкоуровневую модель выполнения: устройство команд, иерархию потоков, блоков, варпов, регистров и видов памяти.
Это базовый материал, без которого сложно разобраться, почему ядра GPU ведут себя именно так, как ведут, и как правильно писать высокопроизводительный код под CUDA.
Ссылка: https://docs.nvidia.com/cuda/parallel-thread-execution
@ai_machinelearning_big_data
#nvidia
👍44❤15🥰8🦄3🔥2❤🔥1👏1
🚨 The Information: DeepSeek тайно использует *запрещённые Nvidia Blackwell GPU* для обучения своей следующей модели
По данным The Information, DeepSeek тренирует новое поколение своей модели на *тысячах* Blackwell-чипов, которые формально запрещены к поставкам в Китай.
Схема выглядит так: серверы с GPU сначала устанавливают и проверяют в «фантомных» дата-центрах за рубежом, после чего их разбирают, декларируют как другое оборудование и снова собирают уже в китайских дата-центрах.
Схема показывает, насколько неэффективными остаются экспортные ограничения США, даже несмотря на давление Вашингтона и недавние обвинения в контрабанде против посредников.
Nvidia в спешке внедряет механизмы отслеживания местоположения GPU, которые могут фактически «отключать» нелегально ввезённые чипы.
Интересное следствие:
Китай проявляет слабый интерес к официально разрешённому H200, что может быть связано с тем, что у ведущих игроков уже есть доступ к более мощным - пусть и нелегальным - Blackwell.
https://www.theinformation.com/articles/deepseek-using-banned-nvidia-chips-race-build-next-model
@ai_machinelearning_big_data
#ai #news #Nvidia
По данным The Information, DeepSeek тренирует новое поколение своей модели на *тысячах* Blackwell-чипов, которые формально запрещены к поставкам в Китай.
Схема выглядит так: серверы с GPU сначала устанавливают и проверяют в «фантомных» дата-центрах за рубежом, после чего их разбирают, декларируют как другое оборудование и снова собирают уже в китайских дата-центрах.
Схема показывает, насколько неэффективными остаются экспортные ограничения США, даже несмотря на давление Вашингтона и недавние обвинения в контрабанде против посредников.
Nvidia в спешке внедряет механизмы отслеживания местоположения GPU, которые могут фактически «отключать» нелегально ввезённые чипы.
Интересное следствие:
Китай проявляет слабый интерес к официально разрешённому H200, что может быть связано с тем, что у ведущих игроков уже есть доступ к более мощным - пусть и нелегальным - Blackwell.
https://www.theinformation.com/articles/deepseek-using-banned-nvidia-chips-race-build-next-model
@ai_machinelearning_big_data
#ai #news #Nvidia
1😁80❤21👍12🔥11🤷♂3🤬2😨1
Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений
Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска
Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач
Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.
Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.
Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.
NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.
Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии.@ai_machinelearning_big_data
#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61❤26👍21🦄3👌2
Контекстные окна растут, но тут два стула: либо классическое внимание, которое питается памятью и компьютит как не в себя, либо RNN-подобные Mamba, DeltaNet, которые работают быстро, но в длинном контексте начинают плыть и терять детали.
NVIDIA предлагает решение, которое пытается усидеть на обоих стульях сразу - Test-Time Training with End-to-End formulation (TTT-E2E):
Обычно веса модели заморожены после тренировки. Когда вы скармливаете ей данные, она просто держит её в KV-кэше. В TTT все по-другому: контекст — это и есть обучающий датасет. Пока модель читает ваш промпт (контекст), она обновляет свои веса (если точнее - делает градиентный спуск прямо на лету), тем самым, инфа из контекста впекается в саму модель. Это позволяет сжать гигантские объемы в фиксированный размер состояния, не раздувая KV-кэш до небес.
По итогу, NVIDIA сравнивает RAG с блокнотом, а свой TTT — с реальным обновлением нейронных связей мозга. Если есть желание покопаться в методике и проникнуться идеей - код и пейпер в открытом доступе.
@ai_machinelearning_big_data
#AI #ML #LLM #TTTE2E #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114❤45🔥25🥰5🤨4🗿2👌1🦄1
Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.
NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.
Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.
Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.
Модели 2-х видов:
KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).
KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).
Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.
Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер:
Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.
Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.
Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.
Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.
Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.
@ai_machinelearning_big_data
#AI #ML #LLM #KVZAP #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92❤77🔥20🤔8👏6🎉2🌚2🥰1
NVIDIA обучила семейство моделей Nemotron-Terminal для автономной работы в терминале Linux: устанавливать зависимости, писать и запускать код, отлаживать окружения и выполнять сквозные инженерные задачи без участия человека.
Семейство построено на базе Qwen3 и специально собранном датасете Terminal-Corpus. И фишка не в архитектуре, а в данных.
Первый адаптирует готовые датасеты по математике, коду и SWE-задачам под терминальный формат (без участия LLM в процессе адаптации).
Второй генерирует синтетику 2 методами: seed-based (LLM создает новые задачи на основе существующих задач из смежных областей) и skill-based (LLM комбинирует до пяти примитивных навыков из таксономии по 9 доменам: Security, Data Science, System Administration и другим).
Terminal-Corpus: около 366K траекторий выполнения задач, разбитых на два потока: ~226K адаптированных примеров из Math/Code/SWE и ~140K синтетических задач на основе skill-таксономии.
Synthetic-Tasks: задачи в стандартизированном формате: инструкция, Docker-окружение из 9 преднастроенных образов и верификационный набор на pytest.
На Terminal-Bench 2.0 все 3 модели показали кратный рост относительно базовой Qwen3: 8B - с 2.5% до 13%, 14B - с 4% до 20.2%, 32B - с 3.4% до 27.4%.
Для сравнения: Qwen3-Coder на 480B параметров набирает 23.9%, GPT-5-Mini - 24.0%, Grok 4 - 23.1%. Nemotron-Terminal-32B превосходит или вплотную конкурирует с ними всеми при разнице в размере на порядок.
Фильтрация неудачных траекторий вредит. Модель, обученная на всех траекториях включая ошибочные, набирает 12.4% против 5.06% у варианта только с успешными.
Curriculum learning (сначала простые данные, потом сложные) не дал преимуществ перед простым смешанным обучением.
Увеличение контекстного окна с 32K до 65K токенов также не помогло, длинные траектории оказались шумнее.
@ai_machinelearning_big_data
#AI #ML #LLM #NemotronTerminal #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍76👨💻37❤17🎉8🔥6👏5🤩3🤔1👌1
Nemotron-Cascade 2 - вторая в мире открытая языковая модель, получившая золотую медаль сразу на 3 соревнованиях 2025 года: IMO, IOI и финале ICPC.
До нее это удавалось только DeepSeek-V3.2-Speciale, модели с 671B параметров и 37B активных. У Nemotron-Cascade 2 параметров в 20 раз меньше: 30B общих, 3B активных.
MoExperts на базе Nemotron-3-Nano-30B-A3B-Base. Отличие от первой версии - расширенный Cascade RL, где обучение с подкреплением проходит последовательно по доменам: сначала следование инструкциям, затем мультидоменное RL, потом дистилляция, RLHF, работа с длинным контекстом, код и, наконец, задачи программной инженерии.
На каждом этапе Cascade RL выбирается лучший промежуточный чекпоинт по конкретному домену и используется как учитель. Поскольку все учителя происходят от одной SFT-инициализации, они делят токенайзер и словарь, что упрощает дистилляцию.
MOPD работает на уровне отдельных токенов, а не последовательностей, и сходится быстрее, чем классический GRPO: на AIME 2025 достигает уровня учителя за 30 шагов оптимизации.
На бенчмарках модель обходит Qwen3.5-35B-A3B и более крупную Nemotron-3-Super-120B-A12B в математике, коде и следованию инструкциям.
Задачи, требующие глубоких знаний (MMLU-Pro, GPQA-Diamond) и агентные сценарии (BFCL v4, τ²-Bench, SWE Verified). Тут Qwen3.5 пока впереди.
NVIDIA обещает подтянуть наукоёмкий претрейн и агентный RL в следующих версиях Nemotron-Cascade.
@ai_machinelearning_big_data
#AI #ML #LLM #Nemotron #Cascade2 #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57🔥23❤16👏4🥰1
NVIDIA выложила в открытый доступ проект Kimodo - генеративную модель на основе диффузии, которая создает реалистичные трехмерные движения для человеческих и робототехнических скелетов.
Kimodo принимает на вход текстовые промпты и ключевые позы всего тела, позиции и вращения конечностей, двухмерные пути и контрольные точки. Это позволяет точно управлять генерацией: от общего описания наподобие "персонаж идет и садится на стул" до детального контроля положения рук и ног в кадрах.
Всего доступно 5 вариантов модели для 3 типов скелетов: SOMA, SMPL-X и Unitree G1. Первые два ориентированы на анимацию аватаров, третий - на робота Unitree G1.
Модели, обученные на полном датасете Bones Rigplay 1 (700 часов), NVIDIA рекомендует как основные рабочие.
Варианты на сете BONES-SEED (288 часов) предназначены для бенчмаркинга и сравнения с собственными разработками.
Для работы с Kimodo предусмотрены 3 интерфейса:
Под инференс потребуется около 17 ГБ видеопамяти, модели запускали на RTX 3090, RTX 4090 и NVIDIA A100.
ProtoMotions позволяет брать сгенерированные движения и обучать на них физически корректные политики управления в GPU-ускоренной симуляции — как для аватаров, так и для Unitree G1.
Через General Motion Retargeting движения, созданные на скелете SMPL-X, можно перенести на произвольных роботов.
Код проекта под Apache 2.0, большинство моделей под NVIDIA Open Model License.
Вариант SMPL-X имеет более ограниченную NVIDIA R&D Model License, она допускает только исследовательское применение.
@ai_machinelearning_big_data
#AI #ML #Robotics #Kimodo #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍120🤩28🤔20❤13👏12🔥5💯4
Audio Flamingo Next (AF-Next) - аудио-языковая модель, обученная на корпусе из 1 млн часов аудио и 108 млн примеров для генерации подробных текстовых описаний аудиозаписей: перечисление инструментов, звуковых событий и музыкальных характеристик того, что звучит на записи. Максимальная длина входного аудио - 30 минут.
Релиз закрывает отставание мультимодальных систем в работе со звуком: речью, музыкой и окружающими шумами на длинных записях.
Фишка архитектуры - Rotary Time Embeddings: угол поворота токена привязывается к реальной временной метке аудио, что дает модели устойчивое временное рассуждение.
AF-Next-Captioner: модель, заточенная под детальное описание аудио. Она генерирует подробные текстовые описания аудиозаписей: перечисляет инструменты, звуковые события, спикеров и музыкальные характеристики того, что звучит на записи, с привязкой к таймкодам.
На распознавании инструментов Medley-Solos-DB она набирает 92,13 против 85,80 у Audio Flamingo 2.
На музыкальных описаниях SongCaps, где качество оценивает GPT-5, показатели покрытия и корректности выросли с 6,7 и 6,2 у AF3 до 8,8 и 8,9.
AF-Next-Instruct: универсальная инструктивная версия, после GRPO для повседневных задач: ответов на вопросы по аудио, голосовых ассистентов, транскрипции речи и перевода.
Именно она устанавливает новые планки среди LALM по ASR.
WER 1,54 на LibriSpeech. На LongAudioBench 73,9 против 60,4 у закрытой Gemini 2.5 Pro (в варианте с речью разрыв еще больше - 81,2 против 66,2.)
AF-Next-Think: ризонинг-версия с Temporal Audio Chain-of-Thought: модель привязывает каждый шаг рассуждения к конкретной временной метке в аудио, что делает ее пригодной для разбора длинных записей, где нужно собирать факты из разных моментов (анализа совещаний, интервью, подкастов, трейлеров и сюжетных аудиоисторий).
75,01 на MMAU-v05.15.25 и 58,7 на более жестком MMAU-Pro, что выше, чем у Gemini-2.5-Pro (57,4).
@ai_machinelearning_big_data
#AI #ML #MMLM #Audio #AudioFlamingo #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💯42🔥37👍11👏9❤6🤓6
NVIDIA опубликовала веса модели и код Lyra 2.0 - системы, которая принимает на вход изображение, генерирует видео с управляемой траекторией камеры, а затем реконструирует его в 3D-гауссианы и полигональные меши.
Готовые ассеты можно напрямую импортировать в игровые движки и робототехнические симуляторы.
Система будет полезна для массовой генерации тренировочных 3D-сред для воплощенного ИИ.
Главная задача, которую решает фреймворк - сохранение согласованности сцены при длительном пролете камеры.
Lyra 2.0 хранит 3D-геометрию каждого кадра в отдельном кэше, при возврате извлекает релевантные исторические кадры по степени перекрытия видимости и устанавливает плотные геометрические соответствия через варпинг канонических координат.
Геометрия используется только для маршрутизации информации - какие кадры извлечь и как их сопоставить с текущим ракурсом. За синтез внешнего вида отвечает диффузионная модель.
Базовая модель построена на архитектуре Wan 2.1-14B с выходным разрешением 832×480.
Для 3D-реконструкции применяется дообученная версия Depth Anything v3 в feed-forward режиме, а поверхностные меши извлекаются через иерархический подход на основе OpenVDB.
На бенчмарках DL3DV и Tanks and Temples Lyra 2.0 превзошла все аналоги (GEN3C, CaM, SPMem, VMem, Yume-1.5 и HY-WorldPlay) практически по всем метрикам: FID, SSIM, LPIPS, субъективное качество и стилистическая согласованность.
Первая версия фреймворка, вышедшая в сентябре, поддерживала лишь генерацию на коротких дистанциях. Ближайший конкурент второй версии, Genie 3 от Google, обладает схожими возможностями, но остаётся закрытым.
@ai_machinelearning_big_data
#AI #ML #3DWorlds #Lyra2 #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩76👍30🔥18👏13❤12🥰3🎉2😴1