Data Science by ODS.ai 🦜
45.1K subscribers
754 photos
84 videos
7 files
1.83K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🔥 DeepSeek-V3-0324: мощное обновление DeepSeek


Китайская компания DeepSeek неожиданно представила новую версию своей модели — DeepSeek-V3-0324. Несмотря на скромное название "незначительного обновления", эта модель уже вызвала волну обсуждений благодаря своим впечатляющим характеристикам и демократичной цене. При этом разработчики не меняли базовую архитектуру, а лишь улучшили методы обучения!

👉 Кратко: Новая модель превосходит топовые западные аналоги (Claude-3.7-Sonnet, GPT-4.5) в математике и программировании, при этом стоимость её использования в разы ниже!

📊 Ключевые преимущества:
✔️ Улучшенная производительность в:
- Математических задачах (MATH-500, AIME 2024)
- Программировании (LiveCodeBench)
- Общих знаниях (MMLU-Pro, GPQA)

✔️ Новые возможности:
- Генерация сложных отчетов (до 3000 слов без потери качества)
- Улучшено форматирование ответов
- Улучшен вызов инструментов (tool calls)

✔️ Улучшения для разработчиков:
- Создает сложные веб-страницы (до 1000 строк кода за один проход)
- Пишет чистый HTML5, CSS и JavaScript с адаптивным дизайном
- Превращает короткие описания в работающие сайты

💡 Технические детали:
- Параметры модели: 660B (не 680B, как ошибочно предполагали)
- Лицензия: MIT (свободна для коммерческого использования)
- Работает даже на Mac Studio M3 Ultra (~20 токенов/сек)

🔗 Где попробовать?  
Модель уже доступна на HuggingFace и официальной платформе.

#КитайскийИИ #КитайAI #DeepSeek #ИскусственныйИнтеллект #Программирование #OpenSource
🔥112
Forwarded from Китай.AI
🔮 CN-AI-RESEARCH | Исследования в области ИИ

🔥 DeepSeek только что выпустил новую статью о масштабировании во время инференса. Грядёт ли R2?


Исследователи из DeepSeek и Университета Цинхуа предложили инновационный подход Self-Principled Critique Tuning (SPCT), который значительно улучшает качество и адаптивность моделей вознаграждения для крупных языковых моделей (LLM).

📌 Ключевые моменты:
- Новый метод позволяет reward-моделям динамически генерировать критерии оценки во время работы
- Значительно превосходит существующие подходы по точности и масштабируемости
- Реализован в модели DeepSeek-GRM-27B на базе Gemma-2-27B

🔧 Как это работает?
1️⃣ Этап 1: Rejective Fine-Tuning — начальная "холодная" настройка модели
2️⃣ Этап 2: Rule-Based Online RL — постоянная оптимизация через генерацию принципов и критики

💡 Технические детали для специалистов:
- Используется мета-RM модель для фильтрации низкокачественных сэмплов
- KL-штраф с высоким коэффициентом предотвращает смещения
- Подход демонстрирует лучшую масштабируемость чем просто увеличение размера модели

🚀 Результаты:
- Превышение производительности моделей с 671B параметрами
- Лучшие показатели на тестах Reward Bench
- Возможность более точной и детальной оценки ответов LLM

Подробнее в оригинальной статье: Inference-Time Scaling for Generalist Reward Modeling

#КитайскийИИ #КитайAI #DeepSeek #RewardModeling #МашинноеОбучение #Нейросети
3👍3🤡3
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров


Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.

Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями

🔍 Технологические инновации:

Стабильность обучения
DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
TinyInit – революционный метод инициализации параметров

Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация

Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU

Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования

📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.

Технический отчет

#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели
🔥9
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🎬 MAGI-1: Китайский ИИ для генерации видео с точностью до секунды

Компания Sand AI представила революционную модель для создания видео — MAGI-1. Это первый в мире авторегрессионный видеогенератор с контролем времени на уровне секунд. На GitHub проект за сутки собрал уже более 1k звезд.

🔹 Почему это важно?
MAGI-1 преодолевает ключевые проблемы AI-видео: рваные переходы, неестественные движения и ограниченную длину роликов.

📌 Ключевые особенности:
Бесконечное продолжение — создает плавные длинные сцены без склеек
Точный контроль времени — можно задать действия для каждой секунды
Естественная динамика — движения выглядят живо и реалистично
8K-качество — сверхчеткое изображение

🛠 Технические детали:
- Архитектура: VAE + Transformer (сжатие 8x пространственное, 4x временное)
- Метод: авторегрессивная дениойзинг-диффузия по блокам (24 кадра)
- Инновации: causal attention, QK-Norm, GQA, SwiGLU
- Размеры моделей: 24B и 4.5B параметров

💡 Почему это прорыв?
1. Открытый доступ (веса + код)
2. Работает даже на RTX 4090
3. В 2.6× эффективнее аналогов (MFU 58%)
4. Лидер VBench-I2V (89.28 баллов)

Основатели проекта — звезды AI-исследований:
👨💻 Цао Юэ (эксперт CNN, 60k цитирований)
👨💻 Чжан Чжэн (соавтор Swin Transformer)

Онлайн-демо | GitHub

#КитайскийИИ #КитайAI #ГенерацияВидео #Нейросети #OpenSource
3
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🔥 Qwen3: новый уровень открытых ИИ-моделей от Alibaba!


Китайский гигант Alibaba представил третье поколение своей флагманской ИИ-серии Qwen — мощные языковые модели с полностью открытой лицензией Apache 2.0.

📌 Основные модели серии:
Qwen3-235B-A22B (флагман) — 235 млрд параметров с 22 млрд активных - конкурирует с Grok-3 и Gemini Pro
Qwen3-30B-A3B — в 10x эффективнее аналогов при 3 млрд активируемых параметров
• 6 Dense-моделей (0.6B–32B) с полным открытым исходным кодом

💡 Ключевые инновации:
→ Режимы "Размышление/Без размышления" для баланса скорости и качества ответов
→ Поддержка 119 языков (рекорд среди открытых моделей)
→ Улучшенные возможности для работы с агентами и MCP
→ В 2x больше данных для обучения vs Qwen2.5 (36 трлн токенов)
→ Экономичность: запуск полной модели требует всего 4 видеокарты H20, а использование видеопамяти на 66% меньше, чем у аналогов
Qwen3-0.6B можно запустить даже на смартфоне!

Онлайн-демо |
HuggingFace |
ModelScope |
GitHub

Для развертывания разработчики рекомендуют использовать SGLang и vLLM, для локального применения — Ollama или LMStudio.

Подробнее в блоге разработчиков

💡 Интересный факт!
📊 С выпуском Owen 3, Qwen стал самым крупным семейством открытых моделей в мире опередив Llama:
Свыше 200 моделей
Более 300 млн загрузок
100 000+ производных архитектур

#КитайскийИИ #КитайAI #OpenSource #MoE #AlibabaQwen #ЯзыковыеМодели
3🔥2👍1
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач


Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.

🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах

📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов

⚙️ Технические детали:

• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)

🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях

"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач"
— команда разработчиков.

Официальный сайт | Hugging Face | GitHub

Подробнее в оригинальной статье.

#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen
2👍2
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🔥 ByteDance представил Seed1.5-VL — новый лидер в мультимодальном анализе


Китайский гигант ByteDance представил модель Seed1.5-VL. Несмотря на компактные размеры (всего 20B параметров), она конкурирует с топовыми решениями вроде Gemini2.5 Pro. И она умеет "глубоко размышлять" над изображениями!

🚀 Что умеет?
- Видеоанализ: Например, по запросу «что натворил кот?» выдает таймкоды всех «преступлений»
- Точный поиск объектов: Находит товары на полке, читает ценники и считает сумму
- Распознавание эмоций: Определяет количество злых котиков на фото с указанием координат
- GUI-интеграция: Может имитировать клики пользователя в интерфейсах

💡 Технические детали:
Архитектура: ViT-532M + MoE-LLM 20B
Обучение: 3 этапа с фокусом на OCR, визуальном grounding’е и работе с длинными последовательностями
Инновации: гибрид RLHF/RLVR, оптимизированная балансировка нагрузки GPU

⚡️ Результаты
Модель набрала 38 топ-результатов в 60 тестах (включая 14/19 видео-тестов)

Официальный сайт | Отчет | GitHub

#КитайскийИИ #КитайAI #МультимодальныйИИ #ComputerVision #ByteDance
3👍3🔥2
Forwarded from Китай.AI
🔮 CN-AI-RESEARCH | Исследования в области ИИ

🚀 Qwen3: представлен полный технический отчет


Китайская команда представила технический отчет по семейству моделей Qwen3.

📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)

💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
Режимом глубокого анализа (для сложных задач)
Режимом быстрого ответа (для простых запросов)

Автоматическое переключение происходит через параметр thinking budget, который оценивает сложность вопроса.

💡 Ключевые инновации:
• Динамическое распределение thinking budget (вычислительных ресурсов) в зависимости от сложности задачи
• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре

🎓 Трехэтапное обучение:

1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)

Отчет также раскрывает метод "большой учит маленького":
- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)

Полный отчет

#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция
1
Forwarded from Китай.AI
🛡️ CN-AI-ARSENAL | Технологический арсенал Китая

🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba


Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.

🔍 Ключевые возможности:
• Поддержка моделей до 600B+ параметров
• Встроенные алгоритмы: PPO, GRPO, Reinforce++
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)

💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов

🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward

GitHub | Технический отчет

#КитайскийИИ #КитайAI #RLHF #Alibaba
2
Forwarded from Китай.AI
🚀 Baidu представил революционное обновление поиска с ИИ-интеграцией

Китайский IT-гигант Baidu радикально переосмыслил свой поисковый сервис, интегрировав передовые технологии искусственного интеллекта во все этапы работы системы.

🔍 Что изменилось?
- Новый ИИ-поисковик заменяет классическую строку поиска
- Поддержка сверхдлинных запросов (1000+ символов)
- Возможность загрузки файлов (10+ форматов)
- Голосовой ввод с мгновенной обработкой

Ключевые нововведения:
1. «Baidu Look» — мультимодальные ответы (видео+текст+изображения) на сложные запросы
2. Генеративная камера — анализ фото с автоматическим решением проблем (например, диагностика поломки техники)
3. Апгрейд ассистента с 18K+ подключенными MCP-сервисами

🎥 Видеогенерация нового уровня
- Создание 3-минутных роликов по текстовому описанию
- Интеграция с платформой «MuseSteamer» для генерации видео:
• Lite: быстрая генерация 720p
• Turbo: реалистичные персонажи
• Pro: киношное 4K-качество

💻 Технические детали
- Основано на модели Wenxin 4.5 (47B параметров)
- Поддержка DeepSeek для сложных запросов
- Архитектура MoE (Mixture of Experts)

🔮 Почему это важно?
Baidu не просто обновляет интерфейс — компания полностью перестраивает экосистему поиска, превращая его из информационного инструмента в многофункциональную платформу для решения задач.

Подробнее в оригинальной статье

#КитайскийИИ #КитайAI #ПоискБудущего #ГенеративныйИИ #BaiduAI
4🔥4🏆1