Команда из MIT показала, что непрерывная диффузия для текста может быть не просто теоретической выкладкой на бумаге - модель на 105M параметров по их замерам бьёт более крупные (~170M) дискретные и непрерывные DLMs, тратя на порядок меньше данных на обучение и меньше шагов на генерацию.
В отличие от картинок и видео, где диффузионки рулят, с текстом всегда была беда из-за дискретности токенов. В ресёрче популярны Diffusion Language Models, а непрерывные подходы буксовали.
ELF предлагает пересобрать архитектуру так, чтобы непрерывная диффузия наконец поехала.
Идея методики в том, чтобы модель перестала мучить дискретные токены на каждом шаге денойзинга:
В дискретных моделях CFG был малоизучен и работал заметно хуже, а здесь нормально рулит балансом качества и разнообразия генерации.
Это пруф-оф-концепт. Самая большая протестированная модель ELF-L содержит всего 652M параметров.
Внутри тестового диапазона (105M → 652M) скейлинг работает и улучшает метрики, но как поведёт себя метод на 7B–70B - неизвестно.
Так что, если под рукой есть пара свободных кластеров H100 и интерес попробовать что-то новое - код открыт, метод описан, можно смело заниматься. Доступны и тестовые чекпоинты из пейпера.
@ai_machinelearning_big_data
#AI #ML #Diffusion #ELF #MIT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓35❤31👍18🔥10👏7🗿2🍓1