Machinelearning

⚡

Speculative Cascades — как ускорить работу LLM

Google Research придумали новый способ сделать большие языковые модели быстрее и дешевле.

Что это такое:

🔹

Каскады
Сначала отвечает маленькая модель. Если задача слишком сложная - подключается большая. Так экономятся ресурсы, но качество может прыгать.

🔹

Спекулятивная декодировка
Маленькая модель угадывает сразу несколько слов вперёд. Большая быстро проверяет данные и подтверждает. Скорость выше, но большая модель всё равно тратит много ресурсов.

🟢

Speculative Cascades
Это комбинация: маленькая модель иногда отвечает полностью сама, а иногда используется как ускоритель для большой. В итоге получаем меньше затрат, больше скорости и то же качество.

🔥

Что показали тесты (тестили на Gemma, T5):
- быстрее, чем обычная спекулятивная декодировка
- дешевле и качественнее, чем каскады
- удобнее настраивать баланс «скорость ↔ качество»

При том же уровне качества, что и у спекулятивной декодировки, новый метод работает быстрее (генерирует больше токенов за один вызов большой модели).

А в задачах математических рассуждений получен явный апгрейд по скорости при сохранении или даже улучшении качества.

LLM всё чаще используются в поиске, чатах, ассистентах. Чтобы они реально были полезными, их нужно ускорять и удешевлять. *Speculative cascades* помогают это сделать без потери качества.

🔗 Подробнее: https://research.google/blog/speculative-cascades-a-hybrid-approach-for-smarter-faster-llm-inference/

@ai_machinelearning_big_data

#AI #LLM #Inference #SpeculativeDecoding #Cascades #GoogleResearch

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3🔥49❤23👍15😁4

29K views11:00

Machinelearning

🖥

HunyuanImage 2.1 теперь доступна в квантизованной версии!

Это text-image модель, которая может генерировать изображения в 2K.

Теперь модель можно запускать локально. Для этого необходимо минимум 24GB VRAM.

🟢Hugging Face: https://huggingface.co/tencent/HunyuanImage-2.1)

🟢

Подробнее про модель: https://xn--r1a.website/machinelearning_interview/2161

@ai_machinelearning_big_data

#AI #HunyuanImage #StableDiffusion #ImageGeneration

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥75❤25👍16😁2❤‍🔥1💔1💘1

26.5K views13:15

Machinelearning

⚡️В Москве прошла Big Tech Night — квартирник для разработчиков, инженеров и исследователей. Сбер стал ключевым партнёром и одним из самых активных участников. Хард-трек открыл Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбера. Он рассказал про последние тренды в генеративном искусственном интеллекте, Top of Mind-решения для бизнеса на основе GigaChat и AI-инструменты для разработчиков.

А после — самое главное: живое общение! 🤝 До самого вечера гости нетворкили, спорили об AI-агентах и архитектуре интеллектуальных систем. Говорили по душам — о профессии, культуре и о том, о чём обычно молчат в презентациях.

❤29😁18👍11🔥5🥱4🌚2🤔1🍾1🙈1

23K views07:57

Machinelearning

📕 Свежий гайд от Anthropic: Writing effective tools for agents — with agents

Anthropic описывает, как правильно создавать инструменты (tools) для AI-агентов: так, чтобы они были максимально полезными, эффективными и надёжными. Особый акцент сделан на том, как использовать самих агентов для прототипирования, тестирования и оптимизации инструментов.

Как писать эффективные инструменты для агентов
- Делай быстрые прототипы и сразу проверяй, как агент с ними работает.
- Тестируй на реальных сценариях, а не на абстрактных примерах.
- Анализируй логи и поведение агента, чтобы находить ошибки и непонятные места.
- Избегай дублирования: один инструмент должен выполнять одну чёткую задачу.
- Используй понятные имена и структуры (`machinelearning_create_task`, `mla_list_users`).
- Возвращай только нужные данные, не перегружай ответ лишним. Добавляй фильтрацию и пагинацию.
- Пиши описания так, чтобы их понял даже человек, который не в теме: чётко, без двусмысленностей, с примерами входа и выхода.

Что это дает:
- Улучшает способность AI-агентов решать реальные задачи.
- Минимизирует ошибки: неверное использование инструментов, лишние токены, избыточные вызовы.
- Повышает надёжность и предсказуемость поведения агентов.
- Упрощает масштабирование — добавление новых инструментов и задач.

🟠 Полный гайд: https://www.anthropic.com/engineering/writing-tools-for-agents

@ai_machinelearning_big_data

#Anthropic #claude #aiagents #ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍42❤20🔥9💘2

25.2K views08:56

Machinelearning

🖥 Nvidia меняет стратегию и уходит от универсальных GPU.

Теперь каждый чип будет заточен под конкретный этап LLM-инференса.

Инференс делится на два шага:
- Prefill - первая стадия. Требует огромной вычислительной мощности, но почти не использует память.
- Decode - вторая стадия. Наоборот, сильно нагружает память, но вычислений нужно меньше.

Раньше, например, R200 объединял в одном GPU и мощные вычислительные блоки, и много памяти. В итоге это было дорого и неэффективно:
- при Prefill простаивает память,
- при Decode — простаивают вычислительные блоки.

🟢Новый подход Nvidia — разные GPU под разные задачи:

- Rubin CPX - оптимизирован для Prefill
• 20 PFLOPS вычислений
• 128 GB GDDR7
• 2 TB/s пропускная способность

- R200 — GPU под Decode
• 288 GB HBM4
• 20.5 TB/s памяти

📆 Планы компании:
- **2024–2025**-— линейка Blackwell (B200, GB300): рост вычислений и памяти.
- 2026–2027 - Rubin разделится:
• VR200 — для Decode (максимум HBM).
• CPX — для Prefill (много вычислений, дешёвая память).
- 2027 — VR300 Ultra: 66.7 PFLOPS и 1024 GB HBM4E.

Nvidia перестраивает линейку так, чтобы каждый GPU работал максимально эффективно именно под свой этап инференса.

#Nvidia #GPU #AI #Blackwell #Rubin #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍121❤40🔥15🤔7🤬3

25.6K views10:04

Machinelearning

1:03

This media is not supported in your browser

VIEW IN TELEGRAM

🧠

mem-agent — агент с памятью в стиле Obsidian

Лёгкая LLM-модель, которая умеет хранить знания в человеко-читаемой памяти (Markdown-файлы) и использовать их для ответов. Агент не просто отвечает на запросы, а действительно «помнит» факты и обновляет их по ходу работы.

Это агент на 4B с локальной, совместимой памятью для Claude, ChatGPT и LM Studio.

Как работает память:
- Вся информация лежит в Markdown: memory/user.md и отдельные файлы для сущностей.
- Связи между файлами сделаны как в Obsidian: [[entity]].
- Агент может извлекать факты, обновлять их или задавать уточняющие вопросы, если запрос неполный.

Вместо огромных контекстов и упора в лимиты, Mem-Agent извлекает нужные фрагменты из локальных документов, сжимает их и передаёт агенту.

Как обучали:
- Базовая модель: Qwen3-4B-Thinking-2507.
- Использовали метод онлайн-RL (GSPO).
- Тестировали на md-memory-bench.

Результаты:
- mem-agent уверенно решает задачи памяти, близко к уровню больших моделей.
- Даже в сжатых версиях (4-bit и 8-bit) сохраняет почти то же качество.

Чем хорош:
- Память можно читать и редактировать вручную.
- Агент работает быстро и эффективно, даже в маленьком размере.
- Удобен как компонент в более крупных системах (например, через MCP).

🟠

Model: https://huggingface.co/driaforall/mem-agent

🟠

Blog: https://huggingface.co/blog/driaforall/mem-agent

🟠

Repo: https://github.com/firstbatchxyz/mem-agent-mcp

@ai_machinelearning_big_data

#LLM #AI #Agents #MemAgent #Dria #MCP #LocalAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍105🔥36❤28😈2❤‍🔥1💘1

35.8K views13:05

Machinelearning

📌xAI уволила 500 универсальных аннотаторов и вместо них в 10 раз увеличивает число специализированных AI-туторов.

xAI меняет стратегию обучения Grok. Вместо сотен универсальных аннотаторов компания делает ставку на специалистов-экспертов и увеличивает их команду в 10 раз.

Это означает переход от широкой разметки «на все темы» к глубокой проработке сложных областей — математики, кода, финансов и безопасности.

👉 Grok постепенно перестаёт быть универсальным чат-ботом и превращается в экспертного ассистента, ориентированного на критические задачи, где особенно важна точность и надёжность.

Плюс - рост качества там, где ошибки недопустимы.
Минус - возможное снижение качества в бытовых и повседневных темах.

🟠

Источник: Business Insider
businessinsider.com/elon-musk-xai-layoffs-data-annotators-2025-9

🟠

Вакансия в Х: https://x.com/i/jobs/1845336351098667008

@ai_machinelearning_big_data

#xAI #Grok #AI #DataAnnotation #AITutors #ElonMusk

Please open Telegram to view this post

VIEW IN TELEGRAM

❤120👍35🔥15💘1

26K viewsedited 08:47

Machinelearning

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

🤖

Robbyant R1 — конкурент Tesla Optimus из Китая

Ant Group показала своего первого гуманоида - R1. Это двуручный робот на колёсах, созданный для реальной работы: от готовки до экскурсовода.

⚙️ Характеристики:
- вес — 110 кг
- рост — 1.6–1.75 м
- скорость — до 1.5 м/с
- 34 степени свободы

🛠

Особенность подхода
Ant не просто продаёт робота, а сразу упаковывает его в готовые сценарии для применения: «железо + софт + инструменты + сервисные команды». Это снижает сложности внедрения и обслуживания.

Разрабы показали демку, как R1 готовит еду и водит экскурсии. Первые внедрения — например, в историческом музее.

🧠 За интеллект отвечает Bailing LLM - 300B mixture-of-experts модель, которая планирует действия для физического тела работа.

Обучение идёт в симуляции, а затем переносится в реальный мир.

Главная проблема таких роботов остаётся прежней: надёжный и безопасный embodied AI, который сможет справляться с хаотичными ситуациями - от грязной кухни до неожиданных взаимодействий с людьми.

Ant Group вошла в гонку за роботов нового поколения, где уже играют Unitree и Tesla.

@ai_machinelearning_big_data

#ai #robots

Please open Telegram to view this post

VIEW IN TELEGRAM

👍54❤24🔥15🤔7💘1🙊1

26.6K viewsedited 13:01

About

Blog

Apps

Platform