Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 DeepSeek-V3-0324: мощное обновление DeepSeek
Китайская компания DeepSeek неожиданно представила новую версию своей модели — DeepSeek-V3-0324. Несмотря на скромное название "незначительного обновления", эта модель уже вызвала волну обсуждений благодаря своим впечатляющим характеристикам и демократичной цене. При этом разработчики не меняли базовую архитектуру, а лишь улучшили методы обучения!
👉 Кратко: Новая модель превосходит топовые западные аналоги (Claude-3.7-Sonnet, GPT-4.5) в математике и программировании, при этом стоимость её использования в разы ниже!
📊 Ключевые преимущества:
✔️ Улучшенная производительность в:
- Математических задачах (
- Программировании (
- Общих знаниях (
✔️ Новые возможности:
- Генерация сложных отчетов (до 3000 слов без потери качества)
- Улучшено форматирование ответов
- Улучшен вызов инструментов (tool calls)
✔️ Улучшения для разработчиков:
- Создает сложные веб-страницы (до 1000 строк кода за один проход)
- Пишет чистый HTML5, CSS и JavaScript с адаптивным дизайном
- Превращает короткие описания в работающие сайты
💡 Технические детали:
- Параметры модели: 660B (не 680B, как ошибочно предполагали)
- Лицензия: MIT (свободна для коммерческого использования)
- Работает даже на Mac Studio M3 Ultra (~20 токенов/сек)
🔗 Где попробовать?
Модель уже доступна на HuggingFace и официальной платформе.
#КитайскийИИ #КитайAI #DeepSeek #ИскусственныйИнтеллект #Программирование #OpenSource
🔥 DeepSeek-V3-0324: мощное обновление DeepSeek
Китайская компания DeepSeek неожиданно представила новую версию своей модели — DeepSeek-V3-0324. Несмотря на скромное название "незначительного обновления", эта модель уже вызвала волну обсуждений благодаря своим впечатляющим характеристикам и демократичной цене. При этом разработчики не меняли базовую архитектуру, а лишь улучшили методы обучения!
👉 Кратко: Новая модель превосходит топовые западные аналоги (Claude-3.7-Sonnet, GPT-4.5) в математике и программировании, при этом стоимость её использования в разы ниже!
📊 Ключевые преимущества:
✔️ Улучшенная производительность в:
- Математических задачах (
MATH-500, AIME 2024)- Программировании (
LiveCodeBench)- Общих знаниях (
MMLU-Pro, GPQA)✔️ Новые возможности:
- Генерация сложных отчетов (до 3000 слов без потери качества)
- Улучшено форматирование ответов
- Улучшен вызов инструментов (tool calls)
✔️ Улучшения для разработчиков:
- Создает сложные веб-страницы (до 1000 строк кода за один проход)
- Пишет чистый HTML5, CSS и JavaScript с адаптивным дизайном
- Превращает короткие описания в работающие сайты
💡 Технические детали:
- Параметры модели: 660B (не 680B, как ошибочно предполагали)
- Лицензия: MIT (свободна для коммерческого использования)
- Работает даже на Mac Studio M3 Ultra (~20 токенов/сек)
🔗 Где попробовать?
Модель уже доступна на HuggingFace и официальной платформе.
#КитайскийИИ #КитайAI #DeepSeek #ИскусственныйИнтеллект #Программирование #OpenSource
🔥11❤2
Forwarded from Китай.AI
🔮 CN-AI-RESEARCH | Исследования в области ИИ
🔥 DeepSeek только что выпустил новую статью о масштабировании во время инференса. Грядёт ли R2?
Исследователи из DeepSeek и Университета Цинхуа предложили инновационный подход Self-Principled Critique Tuning (SPCT), который значительно улучшает качество и адаптивность моделей вознаграждения для крупных языковых моделей (LLM).
📌 Ключевые моменты:
- Новый метод позволяет reward-моделям динамически генерировать критерии оценки во время работы
- Значительно превосходит существующие подходы по точности и масштабируемости
- Реализован в модели DeepSeek-GRM-27B на базе Gemma-2-27B
🔧 Как это работает?
1️⃣ Этап 1: Rejective Fine-Tuning — начальная "холодная" настройка модели
2️⃣ Этап 2: Rule-Based Online RL — постоянная оптимизация через генерацию принципов и критики
💡 Технические детали для специалистов:
- Используется мета-RM модель для фильтрации низкокачественных сэмплов
- KL-штраф с высоким коэффициентом предотвращает смещения
- Подход демонстрирует лучшую масштабируемость чем просто увеличение размера модели
🚀 Результаты:
- Превышение производительности моделей с 671B параметрами
- Лучшие показатели на тестах Reward Bench
- Возможность более точной и детальной оценки ответов LLM
Подробнее в оригинальной статье: Inference-Time Scaling for Generalist Reward Modeling
#КитайскийИИ #КитайAI #DeepSeek #RewardModeling #МашинноеОбучение #Нейросети
🔥 DeepSeek только что выпустил новую статью о масштабировании во время инференса. Грядёт ли R2?
Исследователи из DeepSeek и Университета Цинхуа предложили инновационный подход Self-Principled Critique Tuning (SPCT), который значительно улучшает качество и адаптивность моделей вознаграждения для крупных языковых моделей (LLM).
📌 Ключевые моменты:
- Новый метод позволяет reward-моделям динамически генерировать критерии оценки во время работы
- Значительно превосходит существующие подходы по точности и масштабируемости
- Реализован в модели DeepSeek-GRM-27B на базе Gemma-2-27B
🔧 Как это работает?
1️⃣ Этап 1: Rejective Fine-Tuning — начальная "холодная" настройка модели
2️⃣ Этап 2: Rule-Based Online RL — постоянная оптимизация через генерацию принципов и критики
💡 Технические детали для специалистов:
- Используется мета-RM модель для фильтрации низкокачественных сэмплов
- KL-штраф с высоким коэффициентом предотвращает смещения
- Подход демонстрирует лучшую масштабируемость чем просто увеличение размера модели
🚀 Результаты:
- Превышение производительности моделей с 671B параметрами
- Лучшие показатели на тестах Reward Bench
- Возможность более точной и детальной оценки ответов LLM
Подробнее в оригинальной статье: Inference-Time Scaling for Generalist Reward Modeling
#КитайскийИИ #КитайAI #DeepSeek #RewardModeling #МашинноеОбучение #Нейросети
arXiv.org
Inference-Time Scaling for Generalist Reward Modeling
Reinforcement learning (RL) has been widely adopted in post-training for large language models (LLMs) at scale. Recently, the incentivization of reasoning capabilities in LLMs from RL indicates...
❤3👍3🤡3
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров
Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.
Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями
🔍 Технологические инновации:
Стабильность обучения
• DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
• TinyInit – революционный метод инициализации параметров
Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация
⚡ Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU
Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования
📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.
Технический отчет
#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели
🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров
Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.
Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями
🔍 Технологические инновации:
Стабильность обучения
• DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
• TinyInit – революционный метод инициализации параметров
Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация
⚡ Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU
Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования
📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.
Технический отчет
#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели
GitHub
pangu-ultra/pangu-ultra-report.pdf at main · pangu-tech/pangu-ultra
Contribute to pangu-tech/pangu-ultra development by creating an account on GitHub.
🔥9
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🎬 MAGI-1: Китайский ИИ для генерации видео с точностью до секунды
Компания Sand AI представила революционную модель для создания видео — MAGI-1. Это первый в мире авторегрессионный видеогенератор с контролем времени на уровне секунд. На GitHub проект за сутки собрал уже более 1k звезд.
🔹 Почему это важно?
MAGI-1 преодолевает ключевые проблемы AI-видео: рваные переходы, неестественные движения и ограниченную длину роликов.
📌 Ключевые особенности:
✔Бесконечное продолжение — создает плавные длинные сцены без склеек
✔Точный контроль времени — можно задать действия для каждой секунды
✔Естественная динамика — движения выглядят живо и реалистично
✔8K-качество — сверхчеткое изображение
🛠 Технические детали:
- Архитектура: VAE + Transformer (сжатие 8x пространственное, 4x временное)
- Метод: авторегрессивная дениойзинг-диффузия по блокам (24 кадра)
- Инновации: causal attention, QK-Norm, GQA, SwiGLU
- Размеры моделей: 24B и 4.5B параметров
💡 Почему это прорыв?
1. Открытый доступ (веса + код)
2. Работает даже на RTX 4090
3. В 2.6× эффективнее аналогов (MFU 58%)
4. Лидер VBench-I2V (89.28 баллов)
Основатели проекта — звезды AI-исследований:
👨💻 Цао Юэ (эксперт CNN, 60k цитирований)
👨💻 Чжан Чжэн (соавтор Swin Transformer)
Онлайн-демо | GitHub
#КитайскийИИ #КитайAI #ГенерацияВидео #Нейросети #OpenSource
🎬 MAGI-1: Китайский ИИ для генерации видео с точностью до секунды
Компания Sand AI представила революционную модель для создания видео — MAGI-1. Это первый в мире авторегрессионный видеогенератор с контролем времени на уровне секунд. На GitHub проект за сутки собрал уже более 1k звезд.
🔹 Почему это важно?
MAGI-1 преодолевает ключевые проблемы AI-видео: рваные переходы, неестественные движения и ограниченную длину роликов.
📌 Ключевые особенности:
✔Бесконечное продолжение — создает плавные длинные сцены без склеек
✔Точный контроль времени — можно задать действия для каждой секунды
✔Естественная динамика — движения выглядят живо и реалистично
✔8K-качество — сверхчеткое изображение
🛠 Технические детали:
- Архитектура: VAE + Transformer (сжатие 8x пространственное, 4x временное)
- Метод: авторегрессивная дениойзинг-диффузия по блокам (24 кадра)
- Инновации: causal attention, QK-Norm, GQA, SwiGLU
- Размеры моделей: 24B и 4.5B параметров
💡 Почему это прорыв?
1. Открытый доступ (веса + код)
2. Работает даже на RTX 4090
3. В 2.6× эффективнее аналогов (MFU 58%)
4. Лидер VBench-I2V (89.28 баллов)
Основатели проекта — звезды AI-исследований:
👨💻 Цао Юэ (эксперт CNN, 60k цитирований)
👨💻 Чжан Чжэн (соавтор Swin Transformer)
Онлайн-демо | GitHub
#КитайскийИИ #КитайAI #ГенерацияВидео #Нейросети #OpenSource
sand.ai
Magi
Magi is the first autoregressive video model with top-tier quality output. Magi is a powerful AI video generator that transforms your ideas into stunning videos for free. Extend videos effortlessly with cutting-edge Generative AI tech!
❤3
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 Qwen3: новый уровень открытых ИИ-моделей от Alibaba!
Китайский гигант Alibaba представил третье поколение своей флагманской ИИ-серии Qwen — мощные языковые модели с полностью открытой лицензией Apache 2.0.
📌 Основные модели серии:
• Qwen3-235B-A22B (флагман) — 235 млрд параметров с 22 млрд активных - конкурирует с Grok-3 и Gemini Pro
• Qwen3-30B-A3B — в 10x эффективнее аналогов при 3 млрд активируемых параметров
• 6 Dense-моделей (0.6B–32B) с полным открытым исходным кодом
💡 Ключевые инновации:
→ Режимы "Размышление/Без размышления" для баланса скорости и качества ответов
→ Поддержка 119 языков (рекорд среди открытых моделей)
→ Улучшенные возможности для работы с агентами и MCP
→ В 2x больше данных для обучения vs Qwen2.5 (36 трлн токенов)
→ Экономичность: запуск полной модели требует всего 4 видеокарты H20, а использование видеопамяти на 66% меньше, чем у аналогов
→ Qwen3-0.6B можно запустить даже на смартфоне!
GitHub
Для развертывания разработчики рекомендуют использовать SGLang и vLLM, для локального применения — Ollama или LMStudio.
Подробнее в блоге разработчиков
📊 С выпуском Owen 3, Qwen стал самым крупным семейством открытых моделей в мире опередив Llama:
✅ Свыше 200 моделей
✅ Более 300 млн загрузок
✅ 100 000+ производных архитектур
🔥 Qwen3: новый уровень открытых ИИ-моделей от Alibaba!
Китайский гигант Alibaba представил третье поколение своей флагманской ИИ-серии Qwen — мощные языковые модели с полностью открытой лицензией Apache 2.0.
📌 Основные модели серии:
• Qwen3-235B-A22B (флагман) — 235 млрд параметров с 22 млрд активных - конкурирует с Grok-3 и Gemini Pro
• Qwen3-30B-A3B — в 10x эффективнее аналогов при 3 млрд активируемых параметров
• 6 Dense-моделей (0.6B–32B) с полным открытым исходным кодом
💡 Ключевые инновации:
→ Режимы "Размышление/Без размышления" для баланса скорости и качества ответов
→ Поддержка 119 языков (рекорд среди открытых моделей)
→ Улучшенные возможности для работы с агентами и MCP
→ В 2x больше данных для обучения vs Qwen2.5 (36 трлн токенов)
→ Экономичность: запуск полной модели требует всего 4 видеокарты H20, а использование видеопамяти на 66% меньше, чем у аналогов
→ Qwen3-0.6B можно запустить даже на смартфоне!
Онлайн-демо |
HuggingFace |
ModelScope |GitHub
Для развертывания разработчики рекомендуют использовать SGLang и vLLM, для локального применения — Ollama или LMStudio.
Подробнее в блоге разработчиков
💡 Интересный факт!📊 С выпуском Owen 3, Qwen стал самым крупным семейством открытых моделей в мире опередив Llama:
✅ Свыше 200 моделей
✅ Более 300 млн загрузок
✅ 100 000+ производных архитектур
#КитайскийИИ #КитайAI #OpenSource #MoE #AlibabaQwen #ЯзыковыеМоделиchat.qwen.ai
Qwen Chat
Qwen Chat offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.
❤3🔥2👍1
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач
Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.
🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах
📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов
⚙️ Технические детали:
• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)
🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях
"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач" — команда разработчиков.
Официальный сайт | Hugging Face | GitHub
Подробнее в оригинальной статье.
#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen
🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач
Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.
🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах
📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов
⚙️ Технические детали:
• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)
🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях
"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач" — команда разработчиков.
Официальный сайт | Hugging Face | GitHub
Подробнее в оригинальной статье.
#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen
huggingface.co
DianJin (Qwen DianJin)
Org profile for Qwen DianJin on Hugging Face, the AI community building the future.
❤2👍2
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 ByteDance представил Seed1.5-VL — новый лидер в мультимодальном анализе
Китайский гигант ByteDance представил модель Seed1.5-VL. Несмотря на компактные размеры (всего 20B параметров), она конкурирует с топовыми решениями вроде Gemini2.5 Pro. И она умеет "глубоко размышлять" над изображениями!
🚀 Что умеет?
- Видеоанализ: Например, по запросу «что натворил кот?» выдает таймкоды всех «преступлений»
- Точный поиск объектов: Находит товары на полке, читает ценники и считает сумму
- Распознавание эмоций: Определяет количество злых котиков на фото с указанием координат
- GUI-интеграция: Может имитировать клики пользователя в интерфейсах
💡 Технические детали:
• Архитектура:
• Обучение: 3 этапа с фокусом на OCR, визуальном grounding’е и работе с длинными последовательностями
• Инновации: гибрид RLHF/RLVR, оптимизированная балансировка нагрузки GPU
⚡️ Результаты
Модель набрала 38 топ-результатов в 60 тестах (включая 14/19 видео-тестов)
Официальный сайт | Отчет | GitHub
#КитайскийИИ #КитайAI #МультимодальныйИИ #ComputerVision #ByteDance
🔥 ByteDance представил Seed1.5-VL — новый лидер в мультимодальном анализе
Китайский гигант ByteDance представил модель Seed1.5-VL. Несмотря на компактные размеры (всего 20B параметров), она конкурирует с топовыми решениями вроде Gemini2.5 Pro. И она умеет "глубоко размышлять" над изображениями!
🚀 Что умеет?
- Видеоанализ: Например, по запросу «что натворил кот?» выдает таймкоды всех «преступлений»
- Точный поиск объектов: Находит товары на полке, читает ценники и считает сумму
- Распознавание эмоций: Определяет количество злых котиков на фото с указанием координат
- GUI-интеграция: Может имитировать клики пользователя в интерфейсах
💡 Технические детали:
• Архитектура:
ViT-532M + MoE-LLM 20B • Обучение: 3 этапа с фокусом на OCR, визуальном grounding’е и работе с длинными последовательностями
• Инновации: гибрид RLHF/RLVR, оптимизированная балансировка нагрузки GPU
⚡️ Результаты
Модель набрала 38 топ-результатов в 60 тестах (включая 14/19 видео-тестов)
Официальный сайт | Отчет | GitHub
#КитайскийИИ #КитайAI #МультимодальныйИИ #ComputerVision #ByteDance
Volcengine
火山方舟大模型体验中心-火山引擎
火山方舟大模型体验中心,免登录即可体验,畅享DeepSeek、Doubao等最新模型!火山方舟是火山引擎推出的大模型服务平台,提供模型训练、推理、评测、精调等全方位功能与服务,并重点支撑大模型生态。
❤3👍3🔥2
Forwarded from Китай.AI
🔮 CN-AI-RESEARCH | Исследования в области ИИ
🚀 Qwen3: представлен полный технический отчет
Китайская команда представила технический отчет по семейству моделей Qwen3.
📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)
💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
→ Режимом глубокого анализа (для сложных задач)
→ Режимом быстрого ответа (для простых запросов)
Автоматическое переключение происходит через параметр
💡 Ключевые инновации:
• Динамическое распределение
• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре
🎓 Трехэтапное обучение:
1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)
- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)
Полный отчет
#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция
🚀 Qwen3: представлен полный технический отчет
Китайская команда представила технический отчет по семейству моделей Qwen3.
📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)
💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
→ Режимом глубокого анализа (для сложных задач)
→ Режимом быстрого ответа (для простых запросов)
Автоматическое переключение происходит через параметр
thinking budget, который оценивает сложность вопроса.💡 Ключевые инновации:
• Динамическое распределение
thinking budget (вычислительных ресурсов) в зависимости от сложности задачи• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре
🎓 Трехэтапное обучение:
1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)
Отчет также раскрывает метод "большой учит маленького":- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)
Полный отчет
#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция
GitHub
Qwen3/Qwen3_Technical_Report.pdf at main · QwenLM/Qwen3
Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud. - QwenLM/Qwen3
❤1
Forwarded from Китай.AI
🛡️ CN-AI-ARSENAL | Технологический арсенал Китая
🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba
Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.
🔍 Ключевые возможности:
• Поддержка моделей до
• Встроенные алгоритмы:
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)
💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов
🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward
GitHub | Технический отчет
#КитайскийИИ #КитайAI #RLHF #Alibaba
🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba
Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.
🔍 Ключевые возможности:
• Поддержка моделей до
600B+ параметров • Встроенные алгоритмы:
PPO, GRPO, Reinforce++• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)
💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов
🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward
GitHub | Технический отчет
#КитайскийИИ #КитайAI #RLHF #Alibaba
GitHub
GitHub - alibaba/ROLL: An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models
An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models - alibaba/ROLL
❤2
Forwarded from Китай.AI
🚀 Baidu представил революционное обновление поиска с ИИ-интеграцией
Китайский IT-гигант Baidu радикально переосмыслил свой поисковый сервис, интегрировав передовые технологии искусственного интеллекта во все этапы работы системы.
🔍 Что изменилось?
- Новый ИИ-поисковик заменяет классическую строку поиска
- Поддержка сверхдлинных запросов (1000+ символов)
- Возможность загрузки файлов (10+ форматов)
- Голосовой ввод с мгновенной обработкой
✨ Ключевые нововведения:
1. «Baidu Look» — мультимодальные ответы (видео+текст+изображения) на сложные запросы
2. Генеративная камера — анализ фото с автоматическим решением проблем (например, диагностика поломки техники)
3. Апгрейд ассистента с 18K+ подключенными MCP-сервисами
🎥 Видеогенерация нового уровня
- Создание 3-минутных роликов по текстовому описанию
- Интеграция с платформой «MuseSteamer» для генерации видео:
• Lite: быстрая генерация 720p
• Turbo: реалистичные персонажи
• Pro: киношное 4K-качество
💻 Технические детали
- Основано на модели Wenxin 4.5 (47B параметров)
- Поддержка DeepSeek для сложных запросов
- Архитектура MoE (Mixture of Experts)
🔮 Почему это важно?
Baidu не просто обновляет интерфейс — компания полностью перестраивает экосистему поиска, превращая его из информационного инструмента в многофункциональную платформу для решения задач.
Подробнее в оригинальной статье
#КитайскийИИ #КитайAI #ПоискБудущего #ГенеративныйИИ #BaiduAI
Китайский IT-гигант Baidu радикально переосмыслил свой поисковый сервис, интегрировав передовые технологии искусственного интеллекта во все этапы работы системы.
🔍 Что изменилось?
- Новый ИИ-поисковик заменяет классическую строку поиска
- Поддержка сверхдлинных запросов (1000+ символов)
- Возможность загрузки файлов (10+ форматов)
- Голосовой ввод с мгновенной обработкой
✨ Ключевые нововведения:
1. «Baidu Look» — мультимодальные ответы (видео+текст+изображения) на сложные запросы
2. Генеративная камера — анализ фото с автоматическим решением проблем (например, диагностика поломки техники)
3. Апгрейд ассистента с 18K+ подключенными MCP-сервисами
🎥 Видеогенерация нового уровня
- Создание 3-минутных роликов по текстовому описанию
- Интеграция с платформой «MuseSteamer» для генерации видео:
• Lite: быстрая генерация 720p
• Turbo: реалистичные персонажи
• Pro: киношное 4K-качество
💻 Технические детали
- Основано на модели Wenxin 4.5 (47B параметров)
- Поддержка DeepSeek для сложных запросов
- Архитектура MoE (Mixture of Experts)
🔮 Почему это важно?
Baidu не просто обновляет интерфейс — компания полностью перестраивает экосистему поиска, превращая его из информационного инструмента в многофункциональную платформу для решения задач.
Подробнее в оригинальной статье
#КитайскийИИ #КитайAI #ПоискБудущего #ГенеративныйИИ #BaiduAI
❤4🔥4🏆1