Data Science by ODS.ai 🦜
45.1K subscribers
754 photos
84 videos
7 files
1.83K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
⚡️ Most of the models from Mistral are now available for free via the API

What is this attraction of unprecedented generosity? Your queries will probably be used to train new models (although this is not accurate).

https://docs.mistral.ai/getting-started/models/

#mistral #opensource

@opendatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥95😱4👏2
Forwarded from Machinelearning
🔥 Бесплатный курс от Microsoft «ИИ-агенты для начинающих»

Курс содержит пошаговые инструкции с примерами кода, которые помогут научиться создавать автономных агентов с использованием машинного обучения.

Фокус на AI-агентах:
Если вас интересует именно разработка агентов — например, для симуляций, игр или интерактивных систем — данный курс будет полезен.

Каждый урок включает в себя:
- Лекцию, (видео уроки появятся в марте 2025 года)
- Примеры кода на Python с поддержкой Azure AI Foundry и Github Models
- Практические задания
- Ссылки на полезные дополнительные ресурсы

Если это ваш первый опыт работы с агентами, у Microsoft есть еще 1 курс «Генеративный ИИ для начинающих», который содержит 21 урок по построению моделей с помощью GenAI, лучше начать с него.

Переведен на 9 различных языков (русского нет).

Github

@ai_machinelearning_big_data

#course #Microsoft #aiagents #ai #ml #opensource #freecourse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍61
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🔥 DeepSeek-V3-0324: мощное обновление DeepSeek


Китайская компания DeepSeek неожиданно представила новую версию своей модели — DeepSeek-V3-0324. Несмотря на скромное название "незначительного обновления", эта модель уже вызвала волну обсуждений благодаря своим впечатляющим характеристикам и демократичной цене. При этом разработчики не меняли базовую архитектуру, а лишь улучшили методы обучения!

👉 Кратко: Новая модель превосходит топовые западные аналоги (Claude-3.7-Sonnet, GPT-4.5) в математике и программировании, при этом стоимость её использования в разы ниже!

📊 Ключевые преимущества:
✔️ Улучшенная производительность в:
- Математических задачах (MATH-500, AIME 2024)
- Программировании (LiveCodeBench)
- Общих знаниях (MMLU-Pro, GPQA)

✔️ Новые возможности:
- Генерация сложных отчетов (до 3000 слов без потери качества)
- Улучшено форматирование ответов
- Улучшен вызов инструментов (tool calls)

✔️ Улучшения для разработчиков:
- Создает сложные веб-страницы (до 1000 строк кода за один проход)
- Пишет чистый HTML5, CSS и JavaScript с адаптивным дизайном
- Превращает короткие описания в работающие сайты

💡 Технические детали:
- Параметры модели: 660B (не 680B, как ошибочно предполагали)
- Лицензия: MIT (свободна для коммерческого использования)
- Работает даже на Mac Studio M3 Ultra (~20 токенов/сек)

🔗 Где попробовать?  
Модель уже доступна на HuggingFace и официальной платформе.

#КитайскийИИ #КитайAI #DeepSeek #ИскусственныйИнтеллект #Программирование #OpenSource
🔥112
🎉 Выпущен Техрепорт Wan! 🚀

📖 https://arxiv.org/abs/2503.20314

Wan 2.1 — это открытый инструмент для генерации видео от Alibaba.

В отчете описана архитектура модели, конвейер обработки данных, обучение модели, повышение ее эффективности, алгоритм редактирования видео и т. д.

🟢Официальный сайт: https://wan.video
🟢Github: https://github.com/Wan-Video/Wan2.1
🟢HF: https://huggingface.co/Wan-AI
🟢Modelscope: https://modelscope.cn/organization/Wan-AI

#WAN #OpenSource #VideoGeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🔥2
Forwarded from Machinelearning
✔️ "Speech and Language Processing": 3-е издания книги

Этот открытый учебник считается де-факто стандартом и одним из самых авторитетных и всеобъемлющих ресурсов для изучения областей обработки естественного языка (NLP), вычислительной лингвистики и обработки речи.

🌟 Авторы: Дэн Джурафски и Джеймс Х. Мартин - известные фигуры в области NLP и вычислительной лингвистики. Книга считается классическим текстом, обновленным для включения современных методов, таких как трансформеры, которые доминируют в области NLP.

Книга разделена на три части, включающие 24 основные главы и 8 приложений.

Темы охватывают широкий спектр, включая:
😶Фундаментальные алгоритмы
😶Приложения NLP (Обработки Естественного Языка)
😶Регулярные выражения
😶Нейронные сети и трансформеры,
😶Машинный перевод и другие аспекты NLP
😶Аннотирование (или Разметка) лингвистической структуры.

Для каждой главы доступны слайды в форматах PPTX и PDF, что делает ресурс полезным для преподавателей.

Для всех, кто заинтересован в изучении NLP это фантастически полезный ресурс.

🟡Книга в PDF
🟡Все Главы
🟡Еще книги по NLP

@ai_machinelearning_big_data


#freebook #opensource #nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥2
🌟 Pusa-VidGen — новый подход к генерации видео с точным управлением движением

Обычно в генерации видео модели обрабатывают весь ролик "размазанным" шумом — как бы в целом.

А тут модель управляет шумом отдельно для каждого кадра, и делает это с помощью векторизованных "timesteps" (временных шагов) — более гибко, точно и эффективно.

Новая модель генерации видео на базе Mochi1-Preview и поддерживает:

🔹 Text-to-Video
🔹 Image-to-Video
🔹 Frame Interpolation
🔹 Video Transitions
🔹 Looping, удлинение видео и многое другое

Эффективность:
16× H800 GPU
0.1k GPU-часов
Обучение: 500 итераций, batch size 32
По заявления разработчиков - стоимость обучения всего 100$ 🤯

Github
Paper
Dataset
Model

#diffusion #videogen #pusa #opensource #AI #text2video #mochi1 #fvdm

@vistehno
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🥰2
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🎬 MAGI-1: Китайский ИИ для генерации видео с точностью до секунды

Компания Sand AI представила революционную модель для создания видео — MAGI-1. Это первый в мире авторегрессионный видеогенератор с контролем времени на уровне секунд. На GitHub проект за сутки собрал уже более 1k звезд.

🔹 Почему это важно?
MAGI-1 преодолевает ключевые проблемы AI-видео: рваные переходы, неестественные движения и ограниченную длину роликов.

📌 Ключевые особенности:
Бесконечное продолжение — создает плавные длинные сцены без склеек
Точный контроль времени — можно задать действия для каждой секунды
Естественная динамика — движения выглядят живо и реалистично
8K-качество — сверхчеткое изображение

🛠 Технические детали:
- Архитектура: VAE + Transformer (сжатие 8x пространственное, 4x временное)
- Метод: авторегрессивная дениойзинг-диффузия по блокам (24 кадра)
- Инновации: causal attention, QK-Norm, GQA, SwiGLU
- Размеры моделей: 24B и 4.5B параметров

💡 Почему это прорыв?
1. Открытый доступ (веса + код)
2. Работает даже на RTX 4090
3. В 2.6× эффективнее аналогов (MFU 58%)
4. Лидер VBench-I2V (89.28 баллов)

Основатели проекта — звезды AI-исследований:
👨💻 Цао Юэ (эксперт CNN, 60k цитирований)
👨💻 Чжан Чжэн (соавтор Swin Transformer)

Онлайн-демо | GitHub

#КитайскийИИ #КитайAI #ГенерацияВидео #Нейросети #OpenSource
3
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🔥 Qwen3: новый уровень открытых ИИ-моделей от Alibaba!


Китайский гигант Alibaba представил третье поколение своей флагманской ИИ-серии Qwen — мощные языковые модели с полностью открытой лицензией Apache 2.0.

📌 Основные модели серии:
Qwen3-235B-A22B (флагман) — 235 млрд параметров с 22 млрд активных - конкурирует с Grok-3 и Gemini Pro
Qwen3-30B-A3B — в 10x эффективнее аналогов при 3 млрд активируемых параметров
• 6 Dense-моделей (0.6B–32B) с полным открытым исходным кодом

💡 Ключевые инновации:
→ Режимы "Размышление/Без размышления" для баланса скорости и качества ответов
→ Поддержка 119 языков (рекорд среди открытых моделей)
→ Улучшенные возможности для работы с агентами и MCP
→ В 2x больше данных для обучения vs Qwen2.5 (36 трлн токенов)
→ Экономичность: запуск полной модели требует всего 4 видеокарты H20, а использование видеопамяти на 66% меньше, чем у аналогов
Qwen3-0.6B можно запустить даже на смартфоне!

Онлайн-демо |
HuggingFace |
ModelScope |
GitHub

Для развертывания разработчики рекомендуют использовать SGLang и vLLM, для локального применения — Ollama или LMStudio.

Подробнее в блоге разработчиков

💡 Интересный факт!
📊 С выпуском Owen 3, Qwen стал самым крупным семейством открытых моделей в мире опередив Llama:
Свыше 200 моделей
Более 300 млн загрузок
100 000+ производных архитектур

#КитайскийИИ #КитайAI #OpenSource #MoE #AlibabaQwen #ЯзыковыеМодели
3🔥2👍1
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач


Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.

🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах

📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов

⚙️ Технические детали:

• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)

🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях

"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач"
— команда разработчиков.

Официальный сайт | Hugging Face | GitHub

Подробнее в оригинальной статье.

#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen
2👍2
🧠 One RL to See Them All

MiniMax-AI представили Orsta-7B и Orsta-32B — мощные мультимодальные модели, обученные по новой методике V-Triune:

🔧 V-Triune объединяет:
• форматирование данных на уровне задач,
• расчет награды через кастомные верификаторы,
• мониторинг метрик по источникам.

💥 Результаты?
📈 Orsta-32B даёт **+14.1% прирост** на MEGA-Bench Core по сравнению с QwenVL-2.5!
От OCR и распознавания объектов до визуального рассуждения и математических задач — одна RL-схема покрывает всё.

📦 Модели уже доступны:
- huggingface.co/collections/One-RL-to-See-Them-All/one-rl-to-see-them-all-6833d27abce23898b2f9815a
- github.com/MiniMax-AI/One-RL-to-See-Them-All

Открытая, мощная, готовая к запуску.

#AI #Orsta #MiniMax #VisionLanguage #RLHF #VLM #Multimodal #OpenSource #HuggingFace
👍41🔥1
Forwarded from Machinelearning
🔥 GPT-OSS — открытые модели для продвинутого reasoning и агентных задач от OpenAI

🧠 Представлено два варианта:
GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
GPT-OSS-20B — 21B параметров, работает на 16GB GPU

💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4)

✔️ Особенности:
• Архитектура Token-choice MoE с SwiGLU
• Контекст до 128K токенов с RoPE
• Модель заточена на CoT (chain-of-thought)
• Поддержка instruction-following и tool-use
• Совместима с transformers, vLLM, llama.cpp, ollama
• Используется тот же токенизатор, что и в GPT-4o

Младшая модель может запускаться даже на локальном железе!

🏴‍☠️Лицензирование: Apache 2.0

https://github.com/huggingface/transformers/releases/tag/v4.55.0

🚀 Попробовать можно тут: https://www.gpt-oss.com/

💥 Официальный релиз: http://openai.com/open-models

@ai_machinelearning_big_data


#openai #opensource #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥94👍3
Forwarded from Китай.AI
Китайский гигант ByteDance выпускает мощную open-source модель Seed-OSS на 36 миллиардов параметров

Компания, стоящая за TikTok, сделала крупный шаг в мире открытого ИИ. Их команда Seed представила Seed-OSS-36B — семейство из трех моделей с уникальной технологией управления «бюджетом» вычислений. Это прямой ответ на стратегию OpenAI с её GPT-OSS.

Ключевые особенности, которые выделяют Seed-OSS на фоне других:

🚀 Невероятно длинный контекст: 512K токенов (~1600 страниц текста)
Это в 4 раза больше, чем у последней версии DeepSeek V3.1 (128K). Важно, что такая длина была заложена сразу на этапе предобучения, а не достигнута позже искусственными методами. Это открывает двери для анализа огромных юридических документов, длинных отчетов и сложного кода.

💡 Новая функция: «Бюджет размышлений» (Thinking Budget)
Пользователь может сам задать лимит токенов, которые модель потратит на решение задачи. Для простых вопросов — малый бюджет и быстрый ответ. Для сложных вычислений или генерации кода — большой бюджет для глубоких раздумий. Модель буквально ведет внутренний диалог, отслеживая, сколько «мыслей» уже использовано.

Технические детали:
• Три модели: две базовые (с синтетическими данными и без) и одна инструктивная.
• Архитектура: Плотная (dense) модель на 36B параметров, не Mixture-of-Experts (MoE)
• Ключевые технологии: RoPE, GQA, RMSNorm, SwiGLU
• Слои: 64 | Hidden Size: 5120 | Размер словаря: 155K
• Объем обучающих данных: 12Т токенов (меньше, чем у многих аналогов ~15T+)
• Лицензия: Apache-2.0 (можно использовать бесплатно, в т.ч. коммерчески)

Результаты бенчмарков впечатляют:
MMLU-Pro: 65.1 (Qwen2.5-32B: 58.5)
BBH (логика): 87.7 (новый рекорд для open-source)
GSM8K (математика): 90.8
HumanEval (код): 76.8

Модель уже доступна для загрузки и экспериментов.

GitHub | Hugging Face

#КитайскийИИ #КитайAI #OpenSource #LLM #SeedOSS #ByteDance #ИскусственныйИнтеллект
👍9🔥2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
💡 RND1 - новая экспериментальная модель с 30 миллиардами параметров, построенная по архитектуре Sparse Mixture-of-Experts, где активно 3 миллиарда параметров.

Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.

Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.

Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.

🔄 Как её сделали

Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.

Они просто поменяли тип внимания и дообучили модель на новой задаче.

Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.

Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.

⚙️ Что под капотом

Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.

Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.

Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.

✔️ Почему это интересно

- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.

Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.

Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.

🟠Blog: https://radicalnumerics.ai/blog/rnd1

🟠Code: https://github.com/RadicalNumerics/RND1

🟠Report: https://radicalnumerics.ai/assets/rnd1_report.pdf

🟠Веса: https://huggingface.co/radicalnumerics/RND1-Base-0910

@ai_machinelearning_big_data


#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥7👍3
Forwarded from Китай.AI
🤯 Ring-1T: открыта первая в мире триллионная модель с размышлениями!

Всего за пару недель компания Ant Group выпустила три мощнейшие модели. Апофеозом стал Ring-1T — первая в мире открытая языковая модель с триллионом параметров, которая обладает продвинутыми способностями к рассуждению.

🚀 Результаты тестирования:
Математика: Решила 4 из 6 задач на уровне Международной математической олимпиады (IMO), что соответствует серебряной медали.
Программирование: На уровне ICPC World Finals 2025 решила 5 задач, обогнав Gemini 2.5 Pro.
Логика: Блестяще справляется с запутанными головоломками на определение правды и лжи.
Креатив: Пишет увлекательные исторические подкасты и генерирует рабочий код для игр.

📊 Технические детали для экспертов
Архитектура: MoE (Mixture of Experts) с увеличенным количеством активных параметров
Обучение: Полный цикл RLHF + RLVR (Reinforcement Learning from Verifiable Rewards)
Инновация: Алгоритм IcePop решает проблему расхождения обучения/инференса в MoE через "маскирование градиентов"
Инфраструктура: ASystem обеспечивает стабильное обучение через P2P синхронизацию GPU и Serverless Sandbox

Hugging Face | ModelScope

#КитайскийИИ #КитайAI #Ring1T #OpenSource
🤯5👍1😢1👌1