Forwarded from Китай.AI
🔮 CN-AI-RESEARCH | Исследования в области ИИ
🚀 Qwen3: представлен полный технический отчет
Китайская команда представила технический отчет по семейству моделей Qwen3.
📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)
💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
→ Режимом глубокого анализа (для сложных задач)
→ Режимом быстрого ответа (для простых запросов)
Автоматическое переключение происходит через параметр
💡 Ключевые инновации:
• Динамическое распределение
• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре
🎓 Трехэтапное обучение:
1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)
- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)
Полный отчет
#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция
🚀 Qwen3: представлен полный технический отчет
Китайская команда представила технический отчет по семейству моделей Qwen3.
📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)
💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
→ Режимом глубокого анализа (для сложных задач)
→ Режимом быстрого ответа (для простых запросов)
Автоматическое переключение происходит через параметр
thinking budget, который оценивает сложность вопроса.💡 Ключевые инновации:
• Динамическое распределение
thinking budget (вычислительных ресурсов) в зависимости от сложности задачи• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре
🎓 Трехэтапное обучение:
1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)
Отчет также раскрывает метод "большой учит маленького":- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)
Полный отчет
#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция
GitHub
Qwen3/Qwen3_Technical_Report.pdf at main · QwenLM/Qwen3
Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud. - QwenLM/Qwen3
❤1
Forwarded from Китай.AI
🔥 Китайский ИИ ставит рекорды: Qwen3-Max набирает 100 баллов по математике!
Алибаба представляет новое поколение флагманских моделей, которые устанавливают новые стандарты в мире искусственного интеллекта. Главная звезда — Qwen3-Max — впервые в истории китайских больших языковых моделей набрала максимальные 100 баллов в престижных математических тестах AIME25 и HMMT.
Ключевые достижения:
• Qwen3-Max (Base): Более 1 триллиона параметров, обучена на 36 триллионах токенов, поддерживает контекст до 1 млн. токенов
• Qwen3-Max (Thinking): Показывает 100% точность на сложных математических тестах AIME 25 и HMMT
• Qwen3-Max (Instruct): 69.6% в SWE-Bench (кодинг) и 74.8% в Tau2 Bench (инструменты)
Но это только начало! На конференции Yunqi представлена целая экосистема мощных моделей.
👁️ Qwen3-VL: Монстр визуального понимания
Мультимодальная модель, которая уже доступна в открытом доступе. Она способна:
- Превращать рукописные эскизы веб-страниц в HTML/CSS код
- Детально анализировать изображения и видео
- Понимать сложные временные последовательности
🔊 Qwen3-Omni: Универсальный мультимодальный ИИ
Первая в мире end-to-end модель, объединяющий текст, изображения, аудио и видео. Достигает state-of-the-art результатов в 22 бенчмарках.
🌐 Qwen3-LiveTranslate: Революция в переводе
Модель для живого перевода с поддержкой 18 языков, включая шумные среды. Уже превосходит аналоги от Google и OpenAI.
Вывод: Алибаба демонстрирует впечатляющий прогресс в разработке ИИ, особенно в областях математики, компьютерного зрения и мультимодального обучения. Их открытые модели задают новые ориентиры для всей индустрии.
Qwen Chat | Cайт исследований Qwen
#КитайскийИИ #КитайAI #Qwen3 #ИскусственныйИнтеллект #МашинноеОбучение #Нейросети #AIРеволюция
Алибаба представляет новое поколение флагманских моделей, которые устанавливают новые стандарты в мире искусственного интеллекта. Главная звезда — Qwen3-Max — впервые в истории китайских больших языковых моделей набрала максимальные 100 баллов в престижных математических тестах AIME25 и HMMT.
Ключевые достижения:
• Qwen3-Max (Base): Более 1 триллиона параметров, обучена на 36 триллионах токенов, поддерживает контекст до 1 млн. токенов
• Qwen3-Max (Thinking): Показывает 100% точность на сложных математических тестах AIME 25 и HMMT
• Qwen3-Max (Instruct): 69.6% в SWE-Bench (кодинг) и 74.8% в Tau2 Bench (инструменты)
Но это только начало! На конференции Yunqi представлена целая экосистема мощных моделей.
👁️ Qwen3-VL: Монстр визуального понимания
Мультимодальная модель, которая уже доступна в открытом доступе. Она способна:
- Превращать рукописные эскизы веб-страниц в HTML/CSS код
- Детально анализировать изображения и видео
- Понимать сложные временные последовательности
🔊 Qwen3-Omni: Универсальный мультимодальный ИИ
Первая в мире end-to-end модель, объединяющий текст, изображения, аудио и видео. Достигает state-of-the-art результатов в 22 бенчмарках.
🌐 Qwen3-LiveTranslate: Революция в переводе
Модель для живого перевода с поддержкой 18 языков, включая шумные среды. Уже превосходит аналоги от Google и OpenAI.
Вывод: Алибаба демонстрирует впечатляющий прогресс в разработке ИИ, особенно в областях математики, компьютерного зрения и мультимодального обучения. Их открытые модели задают новые ориентиры для всей индустрии.
Qwen Chat | Cайт исследований Qwen
#КитайскийИИ #КитайAI #Qwen3 #ИскусственныйИнтеллект #МашинноеОбучение #Нейросети #AIРеволюция
chat.qwen.ai
Qwen Chat
Qwen Chat offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.
🔥8❤1👍1🤡1