This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи из Национального университета Сингапура представили DMax: новый подход для diffusion LLM.
Вместо последовательного вывода токенов модель генерирует их параллельно, но при этом не разваливается по качеству
Ключевая идея - превратить декодирование в процесс самокоррекции.
Модель не просто пишет ответ, а постоянно пересматривает и исправляет свои же предсказания прямо по ходу генерации.
Это решает главную проблему параллельной генерации - накопление ошибок
По цифрам:
• DMax заметно обгоняет LLaDA-2.0-mini
• TPF на GSM8K вырос с 2.04 до 5.47
• на MBPP с 2.71 до 5.86
и всё это без потери точности
Скорость - до 1338 токенов в секунду на H200
Paper: https://huggingface.co/papers/2604.08302
Code: https://github.com/czg1225/DMax
Models: https://huggingface.co/collections/Zigeng/dmax-models
Datasets: https://huggingface.co/collections/Zigeng/dmax-training-data
Вместо последовательного вывода токенов модель генерирует их параллельно, но при этом не разваливается по качеству
Ключевая идея - превратить декодирование в процесс самокоррекции.
Модель не просто пишет ответ, а постоянно пересматривает и исправляет свои же предсказания прямо по ходу генерации.
Это решает главную проблему параллельной генерации - накопление ошибок
По цифрам:
• DMax заметно обгоняет LLaDA-2.0-mini
• TPF на GSM8K вырос с 2.04 до 5.47
• на MBPP с 2.71 до 5.86
и всё это без потери точности
Скорость - до 1338 токенов в секунду на H200
Paper: https://huggingface.co/papers/2604.08302
Code: https://github.com/czg1225/DMax
Models: https://huggingface.co/collections/Zigeng/dmax-models
Datasets: https://huggingface.co/collections/Zigeng/dmax-training-data
🔥5👍3❤2