Data Science by ODS.ai 🦜

🔮 CN-AI-MODELS | ИИ модели Китая

🔥 DeepSeek-V3-0324: мощное обновление DeepSeek

Китайская компания DeepSeek неожиданно представила новую версию своей модели — DeepSeek-V3-0324. Несмотря на скромное название "незначительного обновления", эта модель уже вызвала волну обсуждений благодаря своим впечатляющим характеристикам и демократичной цене. При этом разработчики не меняли базовую архитектуру, а лишь улучшили методы обучения!

👉 Кратко: Новая модель превосходит топовые западные аналоги (Claude-3.7-Sonnet, GPT-4.5) в математике и программировании, при этом стоимость её использования в разы ниже!

📊 Ключевые преимущества:
✔️ Улучшенная производительность в:
- Математических задачах (MATH-500, AIME 2024)
- Программировании (LiveCodeBench)
- Общих знаниях (MMLU-Pro, GPQA)

✔️ Новые возможности:
- Генерация сложных отчетов (до 3000 слов без потери качества)
- Улучшено форматирование ответов
- Улучшен вызов инструментов (tool calls)

✔️ Улучшения для разработчиков:
- Создает сложные веб-страницы (до 1000 строк кода за один проход)
- Пишет чистый HTML5, CSS и JavaScript с адаптивным дизайном
- Превращает короткие описания в работающие сайты

💡 Технические детали:
- Параметры модели: 660B (не 680B, как ошибочно предполагали)
- Лицензия: MIT (свободна для коммерческого использования)
- Работает даже на Mac Studio M3 Ultra (~20 токенов/сек)

🔗 Где попробовать?
Модель уже доступна на HuggingFace и официальной платформе.

#КитайскийИИ #КитайAI #DeepSeek #ИскусственныйИнтеллект #Программирование #OpenSource

🔥11❤2

3.94K views11:29

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🔮 CN-AI-RESEARCH | Исследования в области ИИ

🔥 DeepSeek только что выпустил новую статью о масштабировании во время инференса. Грядёт ли R2?

Исследователи из DeepSeek и Университета Цинхуа предложили инновационный подход Self-Principled Critique Tuning (SPCT), который значительно улучшает качество и адаптивность моделей вознаграждения для крупных языковых моделей (LLM).

📌 Ключевые моменты:
- Новый метод позволяет reward-моделям динамически генерировать критерии оценки во время работы
- Значительно превосходит существующие подходы по точности и масштабируемости
- Реализован в модели DeepSeek-GRM-27B на базе Gemma-2-27B

🔧 Как это работает?
1️⃣ Этап 1: Rejective Fine-Tuning — начальная "холодная" настройка модели
2️⃣ Этап 2: Rule-Based Online RL — постоянная оптимизация через генерацию принципов и критики

💡 Технические детали для специалистов:
- Используется мета-RM модель для фильтрации низкокачественных сэмплов
- KL-штраф с высоким коэффициентом предотвращает смещения
- Подход демонстрирует лучшую масштабируемость чем просто увеличение размера модели

🚀 Результаты:
- Превышение производительности моделей с 671B параметрами
- Лучшие показатели на тестах Reward Bench
- Возможность более точной и детальной оценки ответов LLM

Подробнее в оригинальной статье: Inference-Time Scaling for Generalist Reward Modeling

#КитайскийИИ #КитайAI #DeepSeek #RewardModeling #МашинноеОбучение #Нейросети

arXiv.org

Inference-Time Scaling for Generalist Reward Modeling

Reinforcement learning (RL) has been widely adopted in post-training for large language models (LLMs) at scale. Recently, the incentivization of reasoning capabilities in LLMs from RL indicates...

❤3👍3🤡3

3.76K views10:54

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🔮 CN-AI-MODELS | ИИ модели Китая

🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров

Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.

Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями

🔍 Технологические инновации:

Стабильность обучения
• DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
• TinyInit – революционный метод инициализации параметров

Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация

⚡ Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU

Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования

📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.

Технический отчет

#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели

GitHub

pangu-ultra/pangu-ultra-report.pdf at main · pangu-tech/pangu-ultra

Contribute to pangu-tech/pangu-ultra development by creating an account on GitHub.

🔥9

3.99K views12:18

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🔮 CN-AI-MODELS | ИИ модели Китая

🎬 MAGI-1: Китайский ИИ для генерации видео с точностью до секунды

Компания Sand AI представила революционную модель для создания видео — MAGI-1. Это первый в мире авторегрессионный видеогенератор с контролем времени на уровне секунд. На GitHub проект за сутки собрал уже более 1k звезд.

🔹 Почему это важно?
MAGI-1 преодолевает ключевые проблемы AI-видео: рваные переходы, неестественные движения и ограниченную длину роликов.

📌 Ключевые особенности:
✔Бесконечное продолжение — создает плавные длинные сцены без склеек
✔Точный контроль времени — можно задать действия для каждой секунды
✔Естественная динамика — движения выглядят живо и реалистично
✔8K-качество — сверхчеткое изображение

🛠 Технические детали:
- Архитектура: VAE + Transformer (сжатие 8x пространственное, 4x временное)
- Метод: авторегрессивная дениойзинг-диффузия по блокам (24 кадра)
- Инновации: causal attention, QK-Norm, GQA, SwiGLU
- Размеры моделей: 24B и 4.5B параметров

💡 Почему это прорыв?
1. Открытый доступ (веса + код)
2. Работает даже на RTX 4090
3. В 2.6× эффективнее аналогов (MFU 58%)
4. Лидер VBench-I2V (89.28 баллов)

Основатели проекта — звезды AI-исследований:
👨💻 Цао Юэ (эксперт CNN, 60k цитирований)
👨💻 Чжан Чжэн (соавтор Swin Transformer)

Онлайн-демо | GitHub

#КитайскийИИ #КитайAI #ГенерацияВидео #Нейросети #OpenSource

sand.ai

Magi

Magi is the first autoregressive video model with top-tier quality output. Magi is a powerful AI video generator that transforms your ideas into stunning videos for free. Extend videos effortlessly with cutting-edge Generative AI tech!

❤3

3.79K views14:19

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🔮 CN-AI-MODELS | ИИ модели Китая

🔥 Qwen3: новый уровень открытых ИИ-моделей от Alibaba!

Китайский гигант Alibaba представил третье поколение своей флагманской ИИ-серии Qwen — мощные языковые модели с полностью открытой лицензией Apache 2.0.

📌 Основные модели серии:
• Qwen3-235B-A22B (флагман) — 235 млрд параметров с 22 млрд активных - конкурирует с Grok-3 и Gemini Pro
• Qwen3-30B-A3B — в 10x эффективнее аналогов при 3 млрд активируемых параметров
• 6 Dense-моделей (0.6B–32B) с полным открытым исходным кодом

💡 Ключевые инновации:
→ Режимы "Размышление/Без размышления" для баланса скорости и качества ответов
→ Поддержка 119 языков (рекорд среди открытых моделей)
→ Улучшенные возможности для работы с агентами и MCP
→ В 2x больше данных для обучения vs Qwen2.5 (36 трлн токенов)
→ Экономичность: запуск полной модели требует всего 4 видеокарты H20, а использование видеопамяти на 66% меньше, чем у аналогов
→ Qwen3-0.6B можно запустить даже на смартфоне!

Онлайн-демо

HuggingFace

ModelScope |
GitHub

Для развертывания разработчики рекомендуют использовать SGLang и vLLM, для локального применения — Ollama или LMStudio.

Подробнее в блоге разработчиков

💡 Интересный факт!
📊 С выпуском Owen 3, Qwen стал самым крупным семейством открытых моделей в мире опередив Llama:
✅ Свыше 200 моделей
✅ Более 300 млн загрузок
✅ 100 000+ производных архитектур

#КитайскийИИ #КитайAI #OpenSource #MoE #AlibabaQwen #ЯзыковыеМодели

chat.qwen.ai

Qwen Chat

Qwen Chat offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.

❤3🔥2👍1

4.24K views09:50

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🔮 CN-AI-MODELS | ИИ модели Китая

🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач

Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.

🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах

📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов

⚙️ Технические детали:
• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)

🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях

"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач" — команда разработчиков.

Официальный сайт | Hugging Face | GitHub

Подробнее в оригинальной статье.

#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen

huggingface.co

DianJin (Qwen DianJin)

Org profile for Qwen DianJin on Hugging Face, the AI community building the future.

❤2👍2

2.85K views13:26

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🔮 CN-AI-MODELS | ИИ модели Китая

🔥 ByteDance представил Seed1.5-VL — новый лидер в мультимодальном анализе

Китайский гигант ByteDance представил модель Seed1.5-VL. Несмотря на компактные размеры (всего 20B параметров), она конкурирует с топовыми решениями вроде Gemini2.5 Pro. И она умеет "глубоко размышлять" над изображениями!

🚀 Что умеет?
- Видеоанализ: Например, по запросу «что натворил кот?» выдает таймкоды всех «преступлений»
- Точный поиск объектов: Находит товары на полке, читает ценники и считает сумму
- Распознавание эмоций: Определяет количество злых котиков на фото с указанием координат
- GUI-интеграция: Может имитировать клики пользователя в интерфейсах

💡 Технические детали:
• Архитектура: ViT-532M + MoE-LLM 20B
• Обучение: 3 этапа с фокусом на OCR, визуальном grounding’е и работе с длинными последовательностями
• Инновации: гибрид RLHF/RLVR, оптимизированная балансировка нагрузки GPU

⚡️ Результаты
Модель набрала 38 топ-результатов в 60 тестах (включая 14/19 видео-тестов)

Официальный сайт | Отчет | GitHub

#КитайскийИИ #КитайAI #МультимодальныйИИ #ComputerVision #ByteDance

Volcengine

火山方舟大模型体验中心-火山引擎

火山方舟大模型体验中心，免登录即可体验，畅享DeepSeek、Doubao等最新模型！火山方舟是火山引擎推出的大模型服务平台，提供模型训练、推理、评测、精调等全方位功能与服务，并重点支撑大模型生态。

❤3👍3🔥2

3.52K views10:10

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🔮 CN-AI-RESEARCH | Исследования в области ИИ

🚀 Qwen3: представлен полный технический отчет

Китайская команда представила технический отчет по семейству моделей Qwen3.

📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)

💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
→ Режимом глубокого анализа (для сложных задач)
→ Режимом быстрого ответа (для простых запросов)

Автоматическое переключение происходит через параметр thinking budget, который оценивает сложность вопроса.

💡 Ключевые инновации:
• Динамическое распределение thinking budget (вычислительных ресурсов) в зависимости от сложности задачи
• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре

🎓 Трехэтапное обучение:
1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)

Отчет также раскрывает метод "большой учит маленького":
- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)

Полный отчет

#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция

GitHub

Qwen3/Qwen3_Technical_Report.pdf at main · QwenLM/Qwen3

Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud. - QwenLM/Qwen3

❤1

3.23K views11:53

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🛡️ CN-AI-ARSENAL | Технологический арсенал Китая

🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba

Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.

🔍 Ключевые возможности:
• Поддержка моделей до 600B+ параметров
• Встроенные алгоритмы: PPO, GRPO, Reinforce++
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)

💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов

🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward

GitHub | Технический отчет

#КитайскийИИ #КитайAI #RLHF #Alibaba

GitHub

GitHub - alibaba/ROLL: An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models

An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models - alibaba/ROLL

❤2

2.58K views14:20

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🚀 Baidu представил революционное обновление поиска с ИИ-интеграцией

Китайский IT-гигант Baidu радикально переосмыслил свой поисковый сервис, интегрировав передовые технологии искусственного интеллекта во все этапы работы системы.

🔍 Что изменилось?
- Новый ИИ-поисковик заменяет классическую строку поиска
- Поддержка сверхдлинных запросов (1000+ символов)
- Возможность загрузки файлов (10+ форматов)
- Голосовой ввод с мгновенной обработкой

✨ Ключевые нововведения:
1. «Baidu Look» — мультимодальные ответы (видео+текст+изображения) на сложные запросы
2. Генеративная камера — анализ фото с автоматическим решением проблем (например, диагностика поломки техники)
3. Апгрейд ассистента с 18K+ подключенными MCP-сервисами

🎥 Видеогенерация нового уровня
- Создание 3-минутных роликов по текстовому описанию
- Интеграция с платформой «MuseSteamer» для генерации видео:
• Lite: быстрая генерация 720p
• Turbo: реалистичные персонажи
• Pro: киношное 4K-качество

💻 Технические детали
- Основано на модели Wenxin 4.5 (47B параметров)
- Поддержка DeepSeek для сложных запросов
- Архитектура MoE (Mixture of Experts)

🔮 Почему это важно?
Baidu не просто обновляет интерфейс — компания полностью перестраивает экосистему поиска, превращая его из информационного инструмента в многофункциональную платформу для решения задач.

Подробнее в оригинальной статье

#КитайскийИИ #КитайAI #ПоискБудущего #ГенеративныйИИ #BaiduAI

❤4🔥4🏆1

2.88K views14:19

About

Blog

Apps

Platform