Forwarded from Machinelearning
JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений.
Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели.
JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации.
На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера.
На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений.
В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat.
Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта.
# install the necessary dependencies
pip install -e .
pip install diffusers[torch]
# run local gradio demo
pip install -e .[gradio]
python demo/app_janusflow.py
@ai_machinelearning_big_data
#AI #ML #MMLM #Deepseek #JanusFlow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2
Forwarded from Machinelearning
📄 ML NEWS
🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году.
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
🖥 ChatGPT теперь таск-менеджер:
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
📱 DeepSeek V3 вышел на айфонах
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
👩💻 Stable point-aware 3D от Stability AI
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍7🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
P.S. Вышли новые модели DeepSeek если вы вдруг пропустили.
#DeepSeek #deepseekv3 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍8❤3
Forwarded from Machinelearning
Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ.
Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,
Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:
LLM:
✨ InternLM3-8B-Instruct
✨ MiniMax-Text-01
✨ RWKV-7 RNN + трансформер 👀
✨ Собственно сам DeepSeek-R1
✨ Baichuan-M1-14B медицинский LLM 🩺
✨ Qwen2.5-Math-PRM от Alibaba
✨ Qwen2.5 -1M
Модели кодинга:
✨ Tare от BytedanceTalk
TTS модели синтеза и генерации речи:
✨ T2A-01-HD от MiniMax AI
✨ LLaSA
МЛЛМ:
✨ Kimi k1.5 от Moonshot AI
✨ MiniCPM-o-2_6 от OpenBMB
✨ Sa2VA-4B от ByteDanceOSS
✨ VideoLLaMA 3 от Alibaba DAMO
✨ LLaVA-Mini от Китайской академии наук
✨Hunyuan-7B от TXhunyuan
✨ Hunyuan 3D 2.0
ИИ-агенты:
✨ UI-TARS от ByteDanceOSS
✨ GLM-PC
Датасеты:
✨ Fineweb-Edu-Chinese-V2.1
✨ Multimodal_textbook от Alibaba
✨ MME-Finance от Hithink AI
✨ GameFactory от KwaiVGI
📌 Полный список Релизов
#ai #ml #digest #china #deepseek #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤5👍5
🐋 DeepSeek только что потерпел поражение в ходе аудита NewsGuard и занял предпоследнее место по точности ответов чат-ботов, провалив 83% тестов.
В сравнении с западными конкурентами такими, как ChatGPT от OpenAI и Google Gemini, DeepSeek разделил 10-е место с другим чат-ботом.
т.е. когда предъявлялись явно ложные утверждения, они опровергались лишь в 17% случаев.
→ NewsGuard применил свой стандартный аудит дезинформации к DeepSeek, оценив, как он справлялся с ложными заявлениями в политике, здравоохранении, бизнесе и международных отношениях. В то время как ведущие чат-боты имели средний показатель ошибок 62%, DeepSeek показал себя значительно хуже, ошибившись в 83% случаев.
→ Чат-бот особенно плохо справлялся с запросами, связанными с новостями, повторяя ложные утверждения в 30% случаев и не давая прямых ответов в 53% случаев.
https://www.reuters.com/world/china/deepseeks-chatbot-achieves-17-accuracy-trails-western-rivals-newsguard-audit-2025-01-29/
#DeepSeek #ai #ml
В сравнении с западными конкурентами такими, как ChatGPT от OpenAI и Google Gemini, DeepSeek разделил 10-е место с другим чат-ботом.
т.е. когда предъявлялись явно ложные утверждения, они опровергались лишь в 17% случаев.
→ NewsGuard применил свой стандартный аудит дезинформации к DeepSeek, оценив, как он справлялся с ложными заявлениями в политике, здравоохранении, бизнесе и международных отношениях. В то время как ведущие чат-боты имели средний показатель ошибок 62%, DeepSeek показал себя значительно хуже, ошибившись в 83% случаев.
→ Чат-бот особенно плохо справлялся с запросами, связанными с новостями, повторяя ложные утверждения в 30% случаев и не давая прямых ответов в 53% случаев.
https://www.reuters.com/world/china/deepseeks-chatbot-achieves-17-accuracy-trails-western-rivals-newsguard-audit-2025-01-29/
#DeepSeek #ai #ml
👍19🥴18🤔9❤6🔥6😁4😢3🤨3⚡1😱1
Forwarded from Machinelearning
🐋 DeepClaude
Высокопроизводительный LLM-интерфейс, который позволяет использовать возможности рассуждений DeepSeek R1 и творческие способности Claude с помощью единого и простого API и удобного иинтерфейса.
Особенности
🚀 Нулевая задержка - Очень быстрые ответы на базе высокопроизводительного API, написанного на Rust.
⚙️ Гибкая настройка соответствии с вашими потребностями
🌟 Открытый исходный код
🤖 Двойная мощь ИИ - объедините рассуждения DeepSeek R1 с и возможностями Claude
⭐️ DeepClaude объединяет обе модели, чтобы обеспечить:
- Новая SOTA 64,0% на бенчмарке aider polyglot
- 14-кратное снижение затрат по сравнению с предыдущей SOTA
- Повышенную точность генерации кода для различных языков программирования
▪ Github
▪Docs
@ai_machinelearning_big_data
#DeepSeek #Claude #llm #ml #ai #DeepClaude #opensource
Высокопроизводительный LLM-интерфейс, который позволяет использовать возможности рассуждений DeepSeek R1 и творческие способности Claude с помощью единого и простого API и удобного иинтерфейса.
Особенности
🚀 Нулевая задержка - Очень быстрые ответы на базе высокопроизводительного API, написанного на Rust.
⚙️ Гибкая настройка соответствии с вашими потребностями
🌟 Открытый исходный код
🤖 Двойная мощь ИИ - объедините рассуждения DeepSeek R1 с и возможностями Claude
- Новая SOTA 64,0% на бенчмарке aider polyglot
- 14-кратное снижение затрат по сравнению с предыдущей SOTA
- Повышенную точность генерации кода для различных языков программирования
git clone https://github.com/getasterisk/deepclaude.git
cd deepclaude
▪ Github
▪Docs
@ai_machinelearning_big_data
#DeepSeek #Claude #llm #ml #ai #DeepClaude #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍5🔥1
Вы можете запустить GRPO (Group Relative Policy Optimization - основной алгоритм Deepseek r1), для моделей на 8b параметров на GPU стоимостью 10 долл/ч.
4xH100 достаточно для тренировки Llama 3.1 8b и алгоритм прекрасно работает.
▪ Код: https://github.com/minosvasilias/simple_grpo
@data_analysis_ml
#gpro #deepseek #reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍6❤2🤔1
В первый день года команда представила работу, посвящённую одной из самых болезненных проблем современных нейросетей: нестабильности обучения в сложных архитектурах.
И предложили решение: подход под названием mHC (Manifold-Constrained Hyper-Connections).
Смысл в том, что исследователи взяли мощную, но нестабильную архитектуру Hyper-Connections и ввели ограничения на внутренние связи.
1. Проекция на многообразие (manifold)
Вместо того, чтобы оставлять Hyper-Connections свободными, mHC накладывает на них ограничение, они проектируются на особое многообразие (матрицы с особыми свойствами).
Это восстанавливает identity-mapping, благодаря чему сигнал остаётся устойчивым даже через десятки или сотни слоёв.
2. Стабильность и масштабируемость
Благодаря этому ограничению сеть перестаёт «взрывать» или «затухать» сигнал при глубоком обучении, и её можно эффективно использовать в больших моделях без ухудшения качества и без сложных ухищрений.
3. Инфраструктурные оптимизации
Авторы также добавили инженерные улучшения:
- слияние ядер (kernel fusion)
- уменьшение накладных расходов по памяти
- эффекты смешанной точности
Это делает mHC быстрым и эффективным в реальных задачах даже при масштабных тренировках.
Результат впечатляет:
• обучение становится стабильнее на крупных масштабах
• модели лучше масштабируются
• повышается производительность
• снижается потребление памяти
• mHC обгоняет классические Hyper-Connections
Другими словами, DeepSeek показывает, что путь в будущее - не только большие модели, но и архитектуры, которые устойчивы изнутри.
#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
https://arxiv.org/abs/2512.24880
https://www.youtube.com/watch?v=gT-0Qryi5KA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤12🔥4
Forwarded from Machinelearning
DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо
Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:
DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):
Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:
DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:
Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.
На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.
Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.
Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает.
Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера.
Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к
Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы.
@ai_machinelearning_big_data
#AI #ML #LLM #Engram #Deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤35👍14🔥8
⚡️ X-Coder - новый мощный релиз для код-LLM от IIGroup.
Команда выложила полноценный стек для обучения моделей программированию: синтетические датасеты, RL-выравнивание и готовые модели с сильным логическим мышлением.
Что внутри:
— X-Coder-SFT-376k - большой синтетический датасет (376K примеров), сгенерированный с помощью GPT-o3-mini и DeepSeek-R1
— X-Coder-RL-40k - набор для RL-дообучения, сфокусированный на логике, проверке решений и качестве рассуждений
— X-Coder-8B - модели на базе Qwen3 с упором на reasoning и задачи программирования
Главная идея —-полностью синтетическая эволюция данных: масштабирование качества без ручной разметки. Такой подход уже становится стандартом для обучения сильных coding-моделей.
Полезно, если вы:
• обучаете собственные code-LLM
• исследуете synthetic data + RLHF/RLAIF
• работаете с Qwen-экосистемой или агентами для программирования
Модели и датасеты:
https://modelscope.cn/datasets/IIGroup/X-Coder-SFT-376k
https://modelscope.cn/datasets/IIGroup/X-Coder-RL-40k
https://modelscope.cn/models/IIGroup/X-Coder-SFT-Qwen3-8B
#LLM #CodeAI #Qwen3 #DeepSeek #AI #Coding
Команда выложила полноценный стек для обучения моделей программированию: синтетические датасеты, RL-выравнивание и готовые модели с сильным логическим мышлением.
Что внутри:
— X-Coder-SFT-376k - большой синтетический датасет (376K примеров), сгенерированный с помощью GPT-o3-mini и DeepSeek-R1
— X-Coder-RL-40k - набор для RL-дообучения, сфокусированный на логике, проверке решений и качестве рассуждений
— X-Coder-8B - модели на базе Qwen3 с упором на reasoning и задачи программирования
Главная идея —-полностью синтетическая эволюция данных: масштабирование качества без ручной разметки. Такой подход уже становится стандартом для обучения сильных coding-моделей.
Полезно, если вы:
• обучаете собственные code-LLM
• исследуете synthetic data + RLHF/RLAIF
• работаете с Qwen-экосистемой или агентами для программирования
Модели и датасеты:
https://modelscope.cn/datasets/IIGroup/X-Coder-SFT-376k
https://modelscope.cn/datasets/IIGroup/X-Coder-RL-40k
https://modelscope.cn/models/IIGroup/X-Coder-SFT-Qwen3-8B
#LLM #CodeAI #Qwen3 #DeepSeek #AI #Coding
🔥6❤3😍2
Forwarded from Machinelearning
🚀 DeepSeek выкатили V4 и сделали то, к чему все шли последние два года.
Длинный контекст больше не фича для демо. Теперь это базовый уровень.
Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.
Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.
Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.
По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.
Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.
И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.
Закрытые лаборатории будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала публичной ценой, и от неё уже не отмотаешь.
📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4
@ai_machinelearning_big_data
#DeepSeek
Длинный контекст больше не фича для демо. Теперь это базовый уровень.
Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.
Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.
Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.
По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.
Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.
И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.
Закрытые лаборатории будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала публичной ценой, и от неё уже не отмотаешь.
📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4
@ai_machinelearning_big_data
#DeepSeek
❤19👍14🔥7