🚨Только что были выпущены веса для новой ризонинг модели DeepSeek-R1.
Модель 685B разработана чтобы конкурировать с o1 от OpenAI и построена на архитектуре на DeepSeek V3.
Вы можете потестить ее на 8 * H200.
Размер примерно ~720GB.
UPDATE: эти гигачады выпустили сразу 6 моделей от 1.5B до 70B 🔥
DeepSeek-R1-Distill-Qwen-1.5B превосходит GPT-4o и Claude-3.5-Sonnet в математике, набрав 28,9% у AIMEE и 83,9%, стоимость примерно в 30 раз дешевле, чем o1 и примерно в 5 раз дешевле o1 mini.
🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
📌Потестить: https://chat.deepseek.com/sign_in
🖥 GitHub: https://github.com/deepseek-ai/DeepSeek-R1
@ai_machinelearning_big_data
#DeepSeek #deepseekv3 #reasoning #ml
Модель 685B разработана чтобы конкурировать с o1 от OpenAI и построена на архитектуре на DeepSeek V3.
Вы можете потестить ее на 8 * H200.
Размер примерно ~720GB.
UPDATE: эти гигачады выпустили сразу 6 моделей от 1.5B до 70B 🔥
DeepSeek-R1-Distill-Qwen-1.5B превосходит GPT-4o и Claude-3.5-Sonnet в математике, набрав 28,9% у AIMEE и 83,9%, стоимость примерно в 30 раз дешевле, чем o1 и примерно в 5 раз дешевле o1 mini.
🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
📌Потестить: https://chat.deepseek.com/sign_in
@ai_machinelearning_big_data
#DeepSeek #deepseekv3 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥45👍28❤10😁8👏2👾1
🚀 Релиз DeepSeek-V3.2 и DeepSeek-V3.2-Speciale - модели нового поколения, созданные в первую очередь для reasoning и работы в агентных системах.
Что нового:
- DeepSeek-V3.2 - официальный преемник V3.2-Exp. Доступна в приложении, на сайте и через API.
- DeepSeek-V3.2-Speciale - улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока что работает только через API.
Обе модели делают упор на глубокие цепочки рассуждений и поведение, нацеленное на агентные сценарии: планирование, решение задач, сложные выводы и работу со структурированными данными.
🏆 Производительность
• V3.2 - баланс скорости и качества, уровень примерно GPT-5
• V3.2-Speciale - топовый reasoning, конкурирует с Gemini-3.0-Pro.
• Speciale - лидер на IMO, CMO, ICPC.
🤖 Новый подход к обучению агентов
• Синтезированы большие тренировочные данные для 1800+ сред и 85k сложных инструкций.
• V3.2 - первая модель DeepSeek, у которой мышление встроено прямо в tool-use.
💻 API
• V3.2 использует тот же интерфейс, что V3.2-Exp.
• Speciale доступна через временный endpoint, работать будет до 15 декабря 2025.
📦 DeepSeek-V3.2 Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
📦 DeepSeek-V3.2-Speciale Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
@ai_machinelearning_big_data
#deepseek, #deepseekv3, #ai, #нейросети, #искусственныйинтеллект, #llm
Что нового:
- DeepSeek-V3.2 - официальный преемник V3.2-Exp. Доступна в приложении, на сайте и через API.
- DeepSeek-V3.2-Speciale - улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока что работает только через API.
Обе модели делают упор на глубокие цепочки рассуждений и поведение, нацеленное на агентные сценарии: планирование, решение задач, сложные выводы и работу со структурированными данными.
🏆 Производительность
• V3.2 - баланс скорости и качества, уровень примерно GPT-5
• V3.2-Speciale - топовый reasoning, конкурирует с Gemini-3.0-Pro.
• Speciale - лидер на IMO, CMO, ICPC.
🤖 Новый подход к обучению агентов
• Синтезированы большие тренировочные данные для 1800+ сред и 85k сложных инструкций.
• V3.2 - первая модель DeepSeek, у которой мышление встроено прямо в tool-use.
💻 API
• V3.2 использует тот же интерфейс, что V3.2-Exp.
• Speciale доступна через временный endpoint, работать будет до 15 декабря 2025.
📦 DeepSeek-V3.2 Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
📦 DeepSeek-V3.2-Speciale Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
@ai_machinelearning_big_data
#deepseek, #deepseekv3, #ai, #нейросети, #искусственныйинтеллект, #llm
❤38🔥19👍15🦄2👏1