Анализ данных (Data analysis)
52K subscribers
3.01K photos
371 videos
1 file
2.55K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи из Национального университета Сингапура представили DMax: новый подход для diffusion LLM.

Вместо последовательного вывода токенов модель генерирует их параллельно, но при этом не разваливается по качеству

Ключевая идея - превратить декодирование в процесс самокоррекции.

Модель не просто пишет ответ, а постоянно пересматривает и исправляет свои же предсказания прямо по ходу генерации.

Это решает главную проблему параллельной генерации - накопление ошибок

По цифрам:

• DMax заметно обгоняет LLaDA-2.0-mini
• TPF на GSM8K вырос с 2.04 до 5.47
• на MBPP с 2.71 до 5.86
и всё это без потери точности

Скорость - до 1338 токенов в секунду на H200

Paper: https://huggingface.co/papers/2604.08302
Code: https://github.com/czg1225/DMax
Models: https://huggingface.co/collections/Zigeng/dmax-models
Datasets: https://huggingface.co/collections/Zigeng/dmax-training-data
🔥5👍32