This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA выкатила Nemotron 3 Ultra - открытую frontier-модель для агентов, которые работают долго, а не просто отвечают на один промпт и забывают контекст.
Ставка здесь не на красивые бенчмарки общего рассуждения, а на длинные агентные цепочки: планирование, вызов инструментов, работа с кодом, исследование документов и enterprise-сценарии, где задача тянется через десятки шагов.
Именно там обычно ломается экономика агентов. Каждый шаг - новый инференс. Чем длиннее траектория, тем выше задержка и итоговая стоимость. В демо это почти не видно, а в проде быстро превращается в главный счёт.
Поэтому самые интересные цифры у Nemotron 3 Ultra связаны с эффективностью:
- до 5x быстрее инференс
- до 30% дешевле на агентных задачах
- фокус на длинных рабочих сессиях
- открытая модель для команд, которым важен контроль над весами
Для продакшен-агентов это бьёт в больное место. Важен не только красивый ответ на одном запросе, а цена завершённой задачи: сколько стоила вся цепочка, сколько времени заняла и сколько раз агенту пришлось дергать модель.
Открытость тоже важна. Команды с собственной инфраструктурой получают больше контроля: можно дообучать под домен, гонять модель внутри периметра и не держать критичный агентный пайплайн полностью на чужом API.
Но радоваться цифрам стоит аккуратно. «До 5x» и «до 30%» почти всегда означают лучший сценарий на удобном профиле нагрузки. Реальный прирост зависит от ваших трасс, инструментов, длины контекста и количества шагов.
Проверять такую модель нужно не по latency одного запроса, а по cost-per-completed-task: сколько стоит агенту реально закрыть задачу от начала до конца.
https://blogs.nvidia.com/blog/nvidia-gtc-taipei-computex-2026-news/
Ставка здесь не на красивые бенчмарки общего рассуждения, а на длинные агентные цепочки: планирование, вызов инструментов, работа с кодом, исследование документов и enterprise-сценарии, где задача тянется через десятки шагов.
Именно там обычно ломается экономика агентов. Каждый шаг - новый инференс. Чем длиннее траектория, тем выше задержка и итоговая стоимость. В демо это почти не видно, а в проде быстро превращается в главный счёт.
Поэтому самые интересные цифры у Nemotron 3 Ultra связаны с эффективностью:
- до 5x быстрее инференс
- до 30% дешевле на агентных задачах
- фокус на длинных рабочих сессиях
- открытая модель для команд, которым важен контроль над весами
Для продакшен-агентов это бьёт в больное место. Важен не только красивый ответ на одном запросе, а цена завершённой задачи: сколько стоила вся цепочка, сколько времени заняла и сколько раз агенту пришлось дергать модель.
Открытость тоже важна. Команды с собственной инфраструктурой получают больше контроля: можно дообучать под домен, гонять модель внутри периметра и не держать критичный агентный пайплайн полностью на чужом API.
Но радоваться цифрам стоит аккуратно. «До 5x» и «до 30%» почти всегда означают лучший сценарий на удобном профиле нагрузки. Реальный прирост зависит от ваших трасс, инструментов, длины контекста и количества шагов.
Проверять такую модель нужно не по latency одного запроса, а по cost-per-completed-task: сколько стоит агенту реально закрыть задачу от начала до конца.
https://blogs.nvidia.com/blog/nvidia-gtc-taipei-computex-2026-news/
❤3👍2🖕1