Notux лидирует на Hugging Face с MoE файнтюном на базе Mixtral 8x7B
Модель argilla/notux-8x7b-v1 возглавляет рейтинг MoE (Mixture of Experts) на доске лидеров Hugging Face Open LLM.
Улучшенная версия mistralai/Mixtral-8x7B-Instruct-v0.1 благодаря методу Direct Preference Optimization (DPO).
Дообучали на новейшем очищенном наборе данных argilla/ultrafeedback-binarized-preferences-cleaned на базе виртуалки с восемью GPU H100 80GB на платформе runpod.io за 10 часов.
Файнтюн за 10 часов... Микстраль вышла когда? месяц назад? Норм эволюция.
#Notux #HuggingFace #MoE
Модель argilla/notux-8x7b-v1 возглавляет рейтинг MoE (Mixture of Experts) на доске лидеров Hugging Face Open LLM.
Улучшенная версия mistralai/Mixtral-8x7B-Instruct-v0.1 благодаря методу Direct Preference Optimization (DPO).
Дообучали на новейшем очищенном наборе данных argilla/ultrafeedback-binarized-preferences-cleaned на базе виртуалки с восемью GPU H100 80GB на платформе runpod.io за 10 часов.
Файнтюн за 10 часов... Микстраль вышла когда? месяц назад? Норм эволюция.
#Notux #HuggingFace #MoE
Forwarded from Machinelearning
Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:
Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).
Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.
Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.
⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.
@ai_machinelearning_big_data
#AI #ML #Molmo #MoE #MMLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from Machinelearning
Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.
После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.
@ai_machinelearning_big_data
#MoE #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3✍1
Tencent выпускает самую мощную открытую MoE модель в мире
Hunyuan-Large устанавливает новый стандарт производительности языковых моделей с 389 млрд параметров.
Архитектура Mixture of Experts, контекстное окно в 256K токенов.
Система превосходит LLama3.1-405B на 2.6% в MMLU и на 3.6% в математических тестах.
Модель демонстрирует выдающиеся результаты в задачах на китайском языке, программировании и научных вычислениях.
HuggingFace
GitHub
Китайские модели умеют в оптимизацию, получается. При меньшем объеме показывают лучший результат. 😎
#Tencent #Hunyuan #MoE #Китай
-------
@tsingular
Hunyuan-Large устанавливает новый стандарт производительности языковых моделей с 389 млрд параметров.
Архитектура Mixture of Experts, контекстное окно в 256K токенов.
Система превосходит LLama3.1-405B на 2.6% в MMLU и на 3.6% в математических тестах.
Модель демонстрирует выдающиеся результаты в задачах на китайском языке, программировании и научных вычислениях.
HuggingFace
GitHub
Китайские модели умеют в оптимизацию, получается. При меньшем объеме показывают лучший результат. 😎
#Tencent #Hunyuan #MoE #Китай
-------
@tsingular
🔥4
Неделя открытого кода от Deepseek.
Deepseek запустил неделю open-source релизов и уже выкатил два интересных проекта — DeepEP и FlashMLA.
DeepEP: открытая библиотека для ускорения работы MoE-коммуникаций между экспертами, повышая скорость обмена между GPU ядрами в режиме все-со-всеми.
- Поддержка FP8 для быстрых dispatch/combine операций
- Оптимизация как для внутринодовой (NVLink), так и межнодовой (RDMA) коммуникации
- Специальные низколатентные ядра для inference decoding (~160-370μs на некоторых конфигурациях)
- Контроль использования SM-ресурсов GPU (можно выделить 24 SM на коммуникацию)
Бенчмарки: на H800+CX7 получают 153-158 GB/s внутри ноды (по NVLink) и 40-47 GB/s между нодами (по RDMA).
FlashMLA: эффективные ядра для MLA-декодирования
В релизе оптимизированный MLA-декодер для GPU Hopper:
- Поддержка BF16 и FP16
- Paged kvcache с размером блока 64
- До 3000 GB/s при memory-bound и 580 TFLOPS при compute-bound нагрузках на H800
Где пригодится?
1. Для обучения собственных MoE-моделей — как открытый фреймворк, который позволяет эффективно тренировать большие MoE
2. Для тюнинга инференса — если у вас есть Hopper GPU, можно существенно ускорить декодирование моделей с MLA
3. Для понимания архитектуры DeepSeek-моделей — код показывает, как на самом деле устроены модели Deepseek V3
И это только начало их #OpenSourceWeek — ждем еще релизов, особенно полезно будет если они продолжат раскрывать архитектуру своих моделей.
Но как тут сказали товарищи на одном из вебинаров недавно, - будет грустно, если они выложат всё в оупенсорс, а у нас некому будет понять что там написано и даже воспроизвести.
#MoE #MLA #DeepSeek #OpenSourceWeek
———
@tsingular
Deepseek запустил неделю open-source релизов и уже выкатил два интересных проекта — DeepEP и FlashMLA.
DeepEP: открытая библиотека для ускорения работы MoE-коммуникаций между экспертами, повышая скорость обмена между GPU ядрами в режиме все-со-всеми.
- Поддержка FP8 для быстрых dispatch/combine операций
- Оптимизация как для внутринодовой (NVLink), так и межнодовой (RDMA) коммуникации
- Специальные низколатентные ядра для inference decoding (~160-370μs на некоторых конфигурациях)
- Контроль использования SM-ресурсов GPU (можно выделить 24 SM на коммуникацию)
Бенчмарки: на H800+CX7 получают 153-158 GB/s внутри ноды (по NVLink) и 40-47 GB/s между нодами (по RDMA).
FlashMLA: эффективные ядра для MLA-декодирования
В релизе оптимизированный MLA-декодер для GPU Hopper:
- Поддержка BF16 и FP16
- Paged kvcache с размером блока 64
- До 3000 GB/s при memory-bound и 580 TFLOPS при compute-bound нагрузках на H800
Где пригодится?
1. Для обучения собственных MoE-моделей — как открытый фреймворк, который позволяет эффективно тренировать большие MoE
2. Для тюнинга инференса — если у вас есть Hopper GPU, можно существенно ускорить декодирование моделей с MLA
3. Для понимания архитектуры DeepSeek-моделей — код показывает, как на самом деле устроены модели Deepseek V3
И это только начало их #OpenSourceWeek — ждем еще релизов, особенно полезно будет если они продолжат раскрывать архитектуру своих моделей.
Но как тут сказали товарищи на одном из вебинаров недавно, - будет грустно, если они выложат всё в оупенсорс, а у нас некому будет понять что там написано и даже воспроизвести.
#MoE #MLA #DeepSeek #OpenSourceWeek
———
@tsingular
🔥11❤1
Tencent выпустил рассуждающую малую модель Hunyuan-A13B
Tencent представил открытую языковую модель Hunyuan-A13B на основе архитектуры Mixture-of-Experts.
Модель имеет 80 млрд параметров, но активно использует только 13 млрд.
Доступны версии FP8 и INT4. Поддерживается TensorRT-LLM, vLLM и SGLang.
Можно рассмотреть как альтернативу Qwen-3. Чуть лучше по некоторым метрикам.
UPD: а вот они следом выпустили нарезку GPTQ-Int4 на 42 гига.
#MoE #Hunyuan #TencentAI
———
@tsingular
Tencent представил открытую языковую модель Hunyuan-A13B на основе архитектуры Mixture-of-Experts.
Модель имеет 80 млрд параметров, но активно использует только 13 млрд.
Доступны версии FP8 и INT4. Поддерживается TensorRT-LLM, vLLM и SGLang.
Можно рассмотреть как альтернативу Qwen-3. Чуть лучше по некоторым метрикам.
UPD: а вот они следом выпустили нарезку GPTQ-Int4 на 42 гига.
#MoE #Hunyuan #TencentAI
———
@tsingular
✍3⚡3
Большое сравнение архитектур LLM 2025
Себастьян Рашка провел детальный анализ архитектур современных языковых моделей. Оказывается, за семь лет с момента создания GPT кардинальных изменений не произошло.
Главные тренды 2025: DeepSeek-V3 использует Multi-Head Latent Attention вместо популярного Grouped-Query Attention - это дает лучшую производительность при снижении использования памяти на 70%. Mixture-of-Experts стала мейнстримом - из 671 млрд параметров DeepSeek активны только 37 млрд.
Gemma 3 делает ставку на sliding window attention, OLMo 2 экспериментирует с размещением нормализации, а SmolLM3 вообще отказывается от позиционных кодировок.
Интересно, что Kimi 2 с триллионом параметров использует ту же архитектуру DeepSeek, только больше экспертов.
Интересная коллекция разборов разных типов моделей.
Пригодится для понимания в целом как они работают.
#LLM #обучений #MoE
------
@tsingular
Себастьян Рашка провел детальный анализ архитектур современных языковых моделей. Оказывается, за семь лет с момента создания GPT кардинальных изменений не произошло.
Главные тренды 2025: DeepSeek-V3 использует Multi-Head Latent Attention вместо популярного Grouped-Query Attention - это дает лучшую производительность при снижении использования памяти на 70%. Mixture-of-Experts стала мейнстримом - из 671 млрд параметров DeepSeek активны только 37 млрд.
Gemma 3 делает ставку на sliding window attention, OLMo 2 экспериментирует с размещением нормализации, а SmolLM3 вообще отказывается от позиционных кодировок.
Интересно, что Kimi 2 с триллионом параметров использует ту же архитектуру DeepSeek, только больше экспертов.
Интересная коллекция разборов разных типов моделей.
Пригодится для понимания в целом как они работают.
#LLM #обучений #MoE
------
@tsingular
👍7✍2⚡1
Qwen выпустил облегченную версию 235B модели без "размышлений"
Alibaba представила обновленную версию Qwen3-235B-A22B-Instruct-2507 — это режим "без размышлений", который больше не генерирует блоки think в ответах.
Модель использует архитектуру Mixture of Experts с 235B параметрами и активирует только 22B на токен. Это дает производительность больших моделей при затратах всего 10% вычислений.
Поддерживает 119 языков и показывает сильные результаты в программировании и математике. В некоторых бенчмарках обгоняет GPT-4.1, в других уступает.
Для работы с памятью рекомендуют сократить контекст до 32,768 токенов при проблемах с OOM. Поддерживается в популярных фреймворках включая transformers, vLLM и Ollama.
Обошли Кими К2, DeepSeek V3 и Claude Opus 4!!
Полный размер - 472 Гига.
Онлайн адрес не изменился, - https://chat.qwen.ai/
#Qwen #MoE #Китай
------
@tsingular
Alibaba представила обновленную версию Qwen3-235B-A22B-Instruct-2507 — это режим "без размышлений", который больше не генерирует блоки think в ответах.
Модель использует архитектуру Mixture of Experts с 235B параметрами и активирует только 22B на токен. Это дает производительность больших моделей при затратах всего 10% вычислений.
Поддерживает 119 языков и показывает сильные результаты в программировании и математике. В некоторых бенчмарках обгоняет GPT-4.1, в других уступает.
Для работы с памятью рекомендуют сократить контекст до 32,768 токенов при проблемах с OOM. Поддерживается в популярных фреймворках включая transformers, vLLM и Ollama.
Обошли Кими К2, DeepSeek V3 и Claude Opus 4!!
Полный размер - 472 Гига.
Онлайн адрес не изменился, - https://chat.qwen.ai/
#Qwen #MoE #Китай
------
@tsingular
✍2⚡1👀1
GLM-4.5: новый китайский флагман с агентными возможностями
Компания Z.ai (Zhipu AI Inc) выпустила GLM-4.5 — модель с 32-355 млрд параметров. По бенчмаркам заняла третье место в мире и первое среди открытых моделей.
Встроенные агентские способности для планирования многоэтапных задач.
Умеет работать с инструментами.
Включена в Stanford AI Index Report 2025 как "notable AI model".
Что интересно, - это не клон Дипсика или Кими К2, - а собственная отдельная разработка.
Натренили на 15Т токенах общего плана и затем на 7Т токенов кода и ризонера.
Полный размер - 744 гига.
Пробовать можно тут: chat.z.ai
API:docs.z.ai/guides/llm/glm-4.5
HuggingFace
ModelScope
Китайцы выпускают opensource топ модели с какой-то невероятной скоростью
#GLM #MoE #zai #Китай
———
@tsingular
Компания Z.ai (Zhipu AI Inc) выпустила GLM-4.5 — модель с 32-355 млрд параметров. По бенчмаркам заняла третье место в мире и первое среди открытых моделей.
Встроенные агентские способности для планирования многоэтапных задач.
Умеет работать с инструментами.
Включена в Stanford AI Index Report 2025 как "notable AI model".
Что интересно, - это не клон Дипсика или Кими К2, - а собственная отдельная разработка.
Натренили на 15Т токенах общего плана и затем на 7Т токенов кода и ризонера.
Полный размер - 744 гига.
Пробовать можно тут: chat.z.ai
API:docs.z.ai/guides/llm/glm-4.5
HuggingFace
ModelScope
Китайцы выпускают opensource топ модели с какой-то невероятной скоростью
#GLM #MoE #zai #Китай
———
@tsingular
🔥12👍7❤3⚡1
Llama.cpp позволил запустить 120B-параметровую MOE модель на 8GB VRAM
Новая опция --cpu-moe в llama.cpp отправляет экспертные слои MOE-архитектуры на процессор (17-25 токенов/сек на 14900K), а слои внимания оставляет на GPU.
Требуется всего 5-8GB VRAM вместо стандартных 22GB для полной модели. Система показала 25+ токенов/сек генерации на RTX 3060Ti с 64GB оперативки.
МOE-архитектура решает главную проблему домашнего AI — нехватку видеопамяти. Routing таблицы и LayerNorm остаются на GPU для быстрого prefill, гигантские MLP-веса перекочёвывают на CPU.
Видеокарточка за 300 долларов тянет модель на 120 миллиардов параметров. Скоро домашние компы будут умнее корпоративных серверов прошлого года.
народ в комментах пишет gpt-oss-120B запустили на 5090 (32GB VRAM) с 192GB DDR5 со скоростью 35 т/с
TLDR: запускаем 120B на 4090
#llamacpp #MOE #VRAM
------
@tsingular
Новая опция --cpu-moe в llama.cpp отправляет экспертные слои MOE-архитектуры на процессор (17-25 токенов/сек на 14900K), а слои внимания оставляет на GPU.
Требуется всего 5-8GB VRAM вместо стандартных 22GB для полной модели. Система показала 25+ токенов/сек генерации на RTX 3060Ti с 64GB оперативки.
МOE-архитектура решает главную проблему домашнего AI — нехватку видеопамяти. Routing таблицы и LayerNorm остаются на GPU для быстрого prefill, гигантские MLP-веса перекочёвывают на CPU.
Видеокарточка за 300 долларов тянет модель на 120 миллиардов параметров. Скоро домашние компы будут умнее корпоративных серверов прошлого года.
народ в комментах пишет gpt-oss-120B запустили на 5090 (32GB VRAM) с 192GB DDR5 со скоростью 35 т/с
TLDR: запускаем 120B на 4090
#llamacpp #MOE #VRAM
------
@tsingular
🔥18👍7
Forwarded from Machinelearning
⚡️ LongCat-Flash-Omni - открытая 560B MoE-модель (27B активных параметров), которая умеет вести живой диалог в реальном времени, слышать, видеть и отвечать голосом.
Ключевые фишки:
-модель разговаривает и видит собеседника, реагирует на беседу в реальном времени
- 128K контекст
- продвинутая MoE-архитектура: высокое качество при меньших затратах (27B активных параметров из 560B)
- Полгный open-source
По тестам:
- лидер на OmniBench, DailyOmni
- хорошие показатели на ASR (распознавании речи), DocVQA, RefCOCO
- обходит лучше Qwen3-Omni Instruct
- и очень близка к Gemini-2.5-Flash, но это все таки*открытая* модель
Открытая мультимодальная модель, которую можно запускать локально, хороший вариант для голосовых ассистентов.
🤖 Model: https://modelscope.cn/models/meituan-longcat/LongCat-Flash-Omni
🌐 Demo: https://longcat.ai
📄 Full technical report & code:
https://github.com/meituan-longcat/LongCat-Flash-Omni
@ai_machinelearning_big_data
#AI #OpenSourceAI #Multimodal #MoE #LLM #GenAI
Ключевые фишки:
-модель разговаривает и видит собеседника, реагирует на беседу в реальном времени
- 128K контекст
- продвинутая MoE-архитектура: высокое качество при меньших затратах (27B активных параметров из 560B)
- Полгный open-source
По тестам:
- лидер на OmniBench, DailyOmni
- хорошие показатели на ASR (распознавании речи), DocVQA, RefCOCO
- обходит лучше Qwen3-Omni Instruct
- и очень близка к Gemini-2.5-Flash, но это все таки*открытая* модель
Открытая мультимодальная модель, которую можно запускать локально, хороший вариант для голосовых ассистентов.
🤖 Model: https://modelscope.cn/models/meituan-longcat/LongCat-Flash-Omni
🌐 Demo: https://longcat.ai
📄 Full technical report & code:
https://github.com/meituan-longcat/LongCat-Flash-Omni
@ai_machinelearning_big_data
#AI #OpenSourceAI #Multimodal #MoE #LLM #GenAI
🔥9✍6❤4⚡1