Анализ данных (Data analysis)
49.3K subscribers
2.84K photos
328 videos
1 file
2.4K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
⚡️ X-Coder - новый мощный релиз для код-LLM от IIGroup.

Команда выложила полноценный стек для обучения моделей программированию: синтетические датасеты, RL-выравнивание и готовые модели с сильным логическим мышлением.

Что внутри:

— X-Coder-SFT-376k - большой синтетический датасет (376K примеров), сгенерированный с помощью GPT-o3-mini и DeepSeek-R1
— X-Coder-RL-40k - набор для RL-дообучения, сфокусированный на логике, проверке решений и качестве рассуждений
— X-Coder-8B - модели на базе Qwen3 с упором на reasoning и задачи программирования

Главная идея —-полностью синтетическая эволюция данных: масштабирование качества без ручной разметки. Такой подход уже становится стандартом для обучения сильных coding-моделей.

Полезно, если вы:

• обучаете собственные code-LLM
• исследуете synthetic data + RLHF/RLAIF
• работаете с Qwen-экосистемой или агентами для программирования

Модели и датасеты:

https://modelscope.cn/datasets/IIGroup/X-Coder-SFT-376k

https://modelscope.cn/datasets/IIGroup/X-Coder-RL-40k

https://modelscope.cn/models/IIGroup/X-Coder-SFT-Qwen3-8B

#LLM #CodeAI #Qwen3 #DeepSeek #AI #Coding
🔥62😍2