Forwarded from Machinelearning
— GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
— GPT-OSS-20B — 21B параметров, работает на 16GB GPU
💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4)
• Архитектура Token-choice MoE с SwiGLU
• Контекст до 128K токенов с RoPE
• Модель заточена на CoT (chain-of-thought)
• Поддержка instruction-following и tool-use
• Совместима с transformers, vLLM, llama.cpp, ollama
• Используется тот же токенизатор, что и в GPT-4o
Младшая модель может запускаться даже на локальном железе!
https://github.com/huggingface/transformers/releases/tag/v4.55.0
🚀 Попробовать можно тут: https://www.gpt-oss.com/
@ai_machinelearning_big_data
#openai #opensource #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤4👍3
Forwarded from Китай.AI
Китайский гигант ByteDance выпускает мощную open-source модель Seed-OSS на 36 миллиардов параметров
Компания, стоящая за TikTok, сделала крупный шаг в мире открытого ИИ. Их команда Seed представила Seed-OSS-36B — семейство из трех моделей с уникальной технологией управления «бюджетом» вычислений. Это прямой ответ на стратегию OpenAI с её GPT-OSS.
Ключевые особенности, которые выделяют Seed-OSS на фоне других:
🚀 Невероятно длинный контекст: 512K токенов (~1600 страниц текста)
Это в 4 раза больше, чем у последней версии DeepSeek V3.1 (128K). Важно, что такая длина была заложена сразу на этапе предобучения, а не достигнута позже искусственными методами. Это открывает двери для анализа огромных юридических документов, длинных отчетов и сложного кода.
💡 Новая функция: «Бюджет размышлений» (Thinking Budget)
Пользователь может сам задать лимит токенов, которые модель потратит на решение задачи. Для простых вопросов — малый бюджет и быстрый ответ. Для сложных вычислений или генерации кода — большой бюджет для глубоких раздумий. Модель буквально ведет внутренний диалог, отслеживая, сколько «мыслей» уже использовано.
Технические детали:
• Три модели: две базовые (с синтетическими данными и без) и одна инструктивная.
• Архитектура: Плотная (dense) модель на 36B параметров, не Mixture-of-Experts (MoE)
• Ключевые технологии: RoPE, GQA, RMSNorm, SwiGLU
• Слои: 64 | Hidden Size: 5120 | Размер словаря: 155K
• Объем обучающих данных: 12Т токенов (меньше, чем у многих аналогов ~15T+)
• Лицензия: Apache-2.0 (можно использовать бесплатно, в т.ч. коммерчески)
Результаты бенчмарков впечатляют:
• MMLU-Pro: 65.1 (Qwen2.5-32B: 58.5)
• BBH (логика): 87.7 (новый рекорд для open-source)
• GSM8K (математика): 90.8
• HumanEval (код): 76.8
Модель уже доступна для загрузки и экспериментов.
GitHub | Hugging Face
#КитайскийИИ #КитайAI #OpenSource #LLM #SeedOSS #ByteDance #ИскусственныйИнтеллект
Компания, стоящая за TikTok, сделала крупный шаг в мире открытого ИИ. Их команда Seed представила Seed-OSS-36B — семейство из трех моделей с уникальной технологией управления «бюджетом» вычислений. Это прямой ответ на стратегию OpenAI с её GPT-OSS.
Ключевые особенности, которые выделяют Seed-OSS на фоне других:
🚀 Невероятно длинный контекст: 512K токенов (~1600 страниц текста)
Это в 4 раза больше, чем у последней версии DeepSeek V3.1 (128K). Важно, что такая длина была заложена сразу на этапе предобучения, а не достигнута позже искусственными методами. Это открывает двери для анализа огромных юридических документов, длинных отчетов и сложного кода.
💡 Новая функция: «Бюджет размышлений» (Thinking Budget)
Пользователь может сам задать лимит токенов, которые модель потратит на решение задачи. Для простых вопросов — малый бюджет и быстрый ответ. Для сложных вычислений или генерации кода — большой бюджет для глубоких раздумий. Модель буквально ведет внутренний диалог, отслеживая, сколько «мыслей» уже использовано.
Технические детали:
• Три модели: две базовые (с синтетическими данными и без) и одна инструктивная.
• Архитектура: Плотная (dense) модель на 36B параметров, не Mixture-of-Experts (MoE)
• Ключевые технологии: RoPE, GQA, RMSNorm, SwiGLU
• Слои: 64 | Hidden Size: 5120 | Размер словаря: 155K
• Объем обучающих данных: 12Т токенов (меньше, чем у многих аналогов ~15T+)
• Лицензия: Apache-2.0 (можно использовать бесплатно, в т.ч. коммерчески)
Результаты бенчмарков впечатляют:
• MMLU-Pro: 65.1 (Qwen2.5-32B: 58.5)
• BBH (логика): 87.7 (новый рекорд для open-source)
• GSM8K (математика): 90.8
• HumanEval (код): 76.8
Модель уже доступна для загрузки и экспериментов.
GitHub | Hugging Face
#КитайскийИИ #КитайAI #OpenSource #LLM #SeedOSS #ByteDance #ИскусственныйИнтеллект
GitHub
GitHub - ByteDance-Seed/seed-oss
Contribute to ByteDance-Seed/seed-oss development by creating an account on GitHub.
👍9🔥2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.
Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.
Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.
🔄 Как её сделали
Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.
Они просто поменяли тип внимания и дообучили модель на новой задаче.
Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.
Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.
⚙️ Что под капотом
▪ Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.
▪ Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.
▪ Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.
- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.
Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.
Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.
@ai_machinelearning_big_data
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥7👍3
Forwarded from Китай.AI
🤯 Ring-1T: открыта первая в мире триллионная модель с размышлениями!
Всего за пару недель компания Ant Group выпустила три мощнейшие модели. Апофеозом стал Ring-1T — первая в мире открытая языковая модель с триллионом параметров, которая обладает продвинутыми способностями к рассуждению.
🚀 Результаты тестирования:
• Математика: Решила 4 из 6 задач на уровне Международной математической олимпиады (IMO), что соответствует серебряной медали.
• Программирование: На уровне ICPC World Finals 2025 решила 5 задач, обогнав Gemini 2.5 Pro.
• Логика: Блестяще справляется с запутанными головоломками на определение правды и лжи.
• Креатив: Пишет увлекательные исторические подкасты и генерирует рабочий код для игр.
📊 Технические детали для экспертов
Hugging Face | ModelScope
#КитайскийИИ #КитайAI #Ring1T #OpenSource
Всего за пару недель компания Ant Group выпустила три мощнейшие модели. Апофеозом стал Ring-1T — первая в мире открытая языковая модель с триллионом параметров, которая обладает продвинутыми способностями к рассуждению.
🚀 Результаты тестирования:
• Математика: Решила 4 из 6 задач на уровне Международной математической олимпиады (IMO), что соответствует серебряной медали.
• Программирование: На уровне ICPC World Finals 2025 решила 5 задач, обогнав Gemini 2.5 Pro.
• Логика: Блестяще справляется с запутанными головоломками на определение правды и лжи.
• Креатив: Пишет увлекательные исторические подкасты и генерирует рабочий код для игр.
📊 Технические детали для экспертов
Архитектура: MoE (Mixture of Experts) с увеличенным количеством активных параметровОбучение: Полный цикл RLHF + RLVR (Reinforcement Learning from Verifiable Rewards)Инновация: Алгоритм IcePop решает проблему расхождения обучения/инференса в MoE через "маскирование градиентов"Инфраструктура: ASystem обеспечивает стабильное обучение через P2P синхронизацию GPU и Serverless SandboxHugging Face | ModelScope
#КитайскийИИ #КитайAI #Ring1T #OpenSource
huggingface.co
inclusionAI/Ring-1T · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🤯5👍1😢1👌1