Google Research придумали новый способ сделать большие языковые модели быстрее и дешевле.
Что это такое:
Сначала отвечает маленькая модель. Если задача слишком сложная - подключается большая. Так экономятся ресурсы, но качество может прыгать.
Маленькая модель угадывает сразу несколько слов вперёд. Большая быстро проверяет данные и подтверждает. Скорость выше, но большая модель всё равно тратит много ресурсов.
Это комбинация: маленькая модель иногда отвечает полностью сама, а иногда используется как ускоритель для большой. В итоге получаем меньше затрат, больше скорости и то же качество.
- быстрее, чем обычная спекулятивная декодировка
- дешевле и качественнее, чем каскады
- удобнее настраивать баланс «скорость ↔ качество»
При том же уровне качества, что и у спекулятивной декодировки, новый метод работает быстрее (генерирует больше токенов за один вызов большой модели).
А в задачах математических рассуждений получен явный апгрейд по скорости при сохранении или даже улучшении качества.
LLM всё чаще используются в поиске, чатах, ассистентах. Чтобы они реально были полезными, их нужно ускорять и удешевлять. *Speculative cascades* помогают это сделать без потери качества.
🔗 Подробнее: https://research.google/blog/speculative-cascades-a-hybrid-approach-for-smarter-faster-llm-inference/
@ai_machinelearning_big_data
#AI #LLM #Inference #SpeculativeDecoding #Cascades #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥49❤23👍15😁4
Это text-image модель, которая может генерировать изображения в 2K.
Теперь модель можно запускать локально. Для этого необходимо минимум 24GB VRAM.
@ai_machinelearning_big_data
#AI #HunyuanImage #StableDiffusion #ImageGeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥75❤25👍16😁2❤🔥1💔1💘1
⚡️В Москве прошла Big Tech Night — квартирник для разработчиков, инженеров и исследователей. Сбер стал ключевым партнёром и одним из самых активных участников. Хард-трек открыл Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбера. Он рассказал про последние тренды в генеративном искусственном интеллекте, Top of Mind-решения для бизнеса на основе GigaChat и AI-инструменты для разработчиков.
А после — самое главное: живое общение! 🤝 До самого вечера гости нетворкили, спорили об AI-агентах и архитектуре интеллектуальных систем. Говорили по душам — о профессии, культуре и о том, о чём обычно молчат в презентациях.
А после — самое главное: живое общение! 🤝 До самого вечера гости нетворкили, спорили об AI-агентах и архитектуре интеллектуальных систем. Говорили по душам — о профессии, культуре и о том, о чём обычно молчат в презентациях.
❤29😁18👍11🔥5🥱4🌚2🤔1🍾1🙈1
Anthropic описывает, как правильно создавать инструменты (tools) для AI-агентов: так, чтобы они были максимально полезными, эффективными и надёжными. Особый акцент сделан на том, как использовать самих агентов для прототипирования, тестирования и оптимизации инструментов.
Как писать эффективные инструменты для агентов
- Делай быстрые прототипы и сразу проверяй, как агент с ними работает.
- Тестируй на реальных сценариях, а не на абстрактных примерах.
- Анализируй логи и поведение агента, чтобы находить ошибки и непонятные места.
- Избегай дублирования: один инструмент должен выполнять одну чёткую задачу.
- Используй понятные имена и структуры (`machinelearning_create_task`, `mla_list_users`).
- Возвращай только нужные данные, не перегружай ответ лишним. Добавляй фильтрацию и пагинацию.
- Пиши описания так, чтобы их понял даже человек, который не в теме: чётко, без двусмысленностей, с примерами входа и выхода.
Что это дает:
- Улучшает способность AI-агентов решать реальные задачи.
- Минимизирует ошибки: неверное использование инструментов, лишние токены, избыточные вызовы.
- Повышает надёжность и предсказуемость поведения агентов.
- Упрощает масштабирование — добавление новых инструментов и задач.
@ai_machinelearning_big_data
#Anthropic #claude #aiagents #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42❤20🔥9💘2
Теперь каждый чип будет заточен под конкретный этап LLM-инференса.
Инференс делится на два шага:
- Prefill - первая стадия. Требует огромной вычислительной мощности, но почти не использует память.
- Decode - вторая стадия. Наоборот, сильно нагружает память, но вычислений нужно меньше.
Раньше, например, R200 объединял в одном GPU и мощные вычислительные блоки, и много памяти. В итоге это было дорого и неэффективно:
- при Prefill простаивает память,
- при Decode — простаивают вычислительные блоки.
- Rubin CPX - оптимизирован для Prefill
• 20 PFLOPS вычислений
• 128 GB GDDR7
• 2 TB/s пропускная способность
- R200 — GPU под Decode
• 288 GB HBM4
• 20.5 TB/s памяти
📆 Планы компании:
- **2024–2025**-— линейка Blackwell (B200, GB300): рост вычислений и памяти.
- 2026–2027 - Rubin разделится:
• VR200 — для Decode (максимум HBM).
• CPX — для Prefill (много вычислений, дешёвая память).
- 2027 — VR300 Ultra: 66.7 PFLOPS и 1024 GB HBM4E.
Nvidia перестраивает линейку так, чтобы каждый GPU работал максимально эффективно именно под свой этап инференса.
#Nvidia #GPU #AI #Blackwell #Rubin #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍121❤40🔥15🤔7🤬3
Лёгкая LLM-модель, которая умеет хранить знания в человеко-читаемой памяти (Markdown-файлы) и использовать их для ответов. Агент не просто отвечает на запросы, а действительно «помнит» факты и обновляет их по ходу работы.
Это агент на 4B с локальной, совместимой памятью для Claude, ChatGPT и LM Studio.
Как работает память:
- Вся информация лежит в Markdown:
memory/user.md и отдельные файлы для сущностей. - Связи между файлами сделаны как в Obsidian:
[[entity]]. - Агент может извлекать факты, обновлять их или задавать уточняющие вопросы, если запрос неполный.
Вместо огромных контекстов и упора в лимиты, Mem-Agent извлекает нужные фрагменты из локальных документов, сжимает их и передаёт агенту.
Как обучали:
- Базовая модель: Qwen3-4B-Thinking-2507.
- Использовали метод онлайн-RL (GSPO).
- Тестировали на md-memory-bench.
Результаты:
- mem-agent уверенно решает задачи памяти, близко к уровню больших моделей.
- Даже в сжатых версиях (4-bit и 8-bit) сохраняет почти то же качество.
Чем хорош:
- Память можно читать и редактировать вручную.
- Агент работает быстро и эффективно, даже в маленьком размере.
- Удобен как компонент в более крупных системах (например, через MCP).
@ai_machinelearning_big_data
#LLM #AI #Agents #MemAgent #Dria #MCP #LocalAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥36❤28😈2❤🔥1💘1
📌xAI уволила 500 универсальных аннотаторов и вместо них в 10 раз увеличивает число специализированных AI-туторов.
xAI меняет стратегию обучения Grok. Вместо сотен универсальных аннотаторов компания делает ставку на специалистов-экспертов и увеличивает их команду в 10 раз.
Это означает переход от широкой разметки «на все темы» к глубокой проработке сложных областей — математики, кода, финансов и безопасности.
👉 Grok постепенно перестаёт быть универсальным чат-ботом и превращается в экспертного ассистента, ориентированного на критические задачи, где особенно важна точность и надёжность.
Плюс - рост качества там, где ошибки недопустимы.
Минус - возможное снижение качества в бытовых и повседневных темах.
🟠 Источник: Business Insider
businessinsider.com/elon-musk-xai-layoffs-data-annotators-2025-9
🟠 Вакансия в Х: https://x.com/i/jobs/1845336351098667008
@ai_machinelearning_big_data
#xAI #Grok #AI #DataAnnotation #AITutors #ElonMusk
xAI меняет стратегию обучения Grok. Вместо сотен универсальных аннотаторов компания делает ставку на специалистов-экспертов и увеличивает их команду в 10 раз.
Это означает переход от широкой разметки «на все темы» к глубокой проработке сложных областей — математики, кода, финансов и безопасности.
👉 Grok постепенно перестаёт быть универсальным чат-ботом и превращается в экспертного ассистента, ориентированного на критические задачи, где особенно важна точность и надёжность.
Плюс - рост качества там, где ошибки недопустимы.
Минус - возможное снижение качества в бытовых и повседневных темах.
businessinsider.com/elon-musk-xai-layoffs-data-annotators-2025-9
@ai_machinelearning_big_data
#xAI #Grok #AI #DataAnnotation #AITutors #ElonMusk
Please open Telegram to view this post
VIEW IN TELEGRAM
❤120👍35🔥15💘1
This media is not supported in your browser
VIEW IN TELEGRAM
Ant Group показала своего первого гуманоида - R1. Это двуручный робот на колёсах, созданный для реальной работы: от готовки до экскурсовода.
⚙️ Характеристики:
- вес — 110 кг
- рост — 1.6–1.75 м
- скорость — до 1.5 м/с
- 34 степени свободы
Ant не просто продаёт робота, а сразу упаковывает его в готовые сценарии для применения: «железо + софт + инструменты + сервисные команды». Это снижает сложности внедрения и обслуживания.
Разрабы показали демку, как R1 готовит еду и водит экскурсии. Первые внедрения — например, в историческом музее.
Обучение идёт в симуляции, а затем переносится в реальный мир.
Главная проблема таких роботов остаётся прежней: надёжный и безопасный embodied AI, который сможет справляться с хаотичными ситуациями - от грязной кухни до неожиданных взаимодействий с людьми.
Ant Group вошла в гонку за роботов нового поколения, где уже играют Unitree и Tesla.
@ai_machinelearning_big_data
#ai #robots
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54❤24🔥15🤔7💘1🙊1