299K subscribers
5.02K photos
1.13K videos
17 files
5.38K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Embedded Language Flows: диффузия для текста оживает

Команда из MIT показала, что непрерывная диффузия для текста может быть не просто теоретической выкладкой на бумаге - модель на 105M параметров по их замерам бьёт более крупные (~170M) дискретные и непрерывные DLMs, тратя на порядок меньше данных на обучение и меньше шагов на генерацию.

В отличие от картинок и видео, где диффузионки рулят, с текстом всегда была беда из-за дискретности токенов. В ресёрче популярны Diffusion Language Models, а непрерывные подходы буксовали.

ELF предлагает пересобрать архитектуру так, чтобы непрерывная диффузия наконец поехала.

Идея методики в том, чтобы модель перестала мучить дискретные токены на каждом шаге денойзинга:

🟠Берём замороженный энкодер (T5) и переводим дискретные токены в непрерывное пространство эмбеддингов. В инференсе его не будет, он нужен только на обучении.

🟠Запускаем Flow Matching. На протяжении всего процесса инфернса модель сидит в непрерывном пространстве, решая ODE/SDE.

🟠Дискретизация обратно в текст происходит строго на финальном шаге, при этом отдельный декодер не нужен, веса шарятся с основным денойзером. А ещё в процесс замечательно встаёт классический CFG.

В дискретных моделях CFG был малоизучен и работал заметно хуже, а здесь нормально рулит балансом качества и разнообразия генерации.


🟡Результаты тестов

🟢Метод обходит топовые дискретные (MDLM, Duo) и непрерывные (FLM, LangFlow) DLMs по генеративной перплексии и делает это, будучи меньше по размеру.

🟢На обучение понадобилось всего 45B токенов. Конкурентам нужно примерно в 10 раз больше.

🟢ELF бьёт даже дистиллированные версии конкурентов (few-step версия FLM, Duo с дистилляцией DCD) на малом числе шагов - хватает 32 шагов с SDE.

🟢Хорошие метрики на задачах с условием (то есть когда генерация опирается на вход): BLEU 26.4 в машинном переводе (WMT14 De-En) и лучшие ROUGE-цифры в XSum среди сравниваемых вариантов.

🟡Дисклеймер

Это пруф-оф-концепт. Самая большая протестированная модель ELF-L содержит всего 652M параметров.

Внутри тестового диапазона (105M → 652M) скейлинг работает и улучшает метрики, но как поведёт себя метод на 7B–70B - неизвестно.


Так что, если под рукой есть пара свободных кластеров H100 и интерес попробовать что-то новое - код открыт, метод описан, можно смело заниматься. Доступны и тестовые чекпоинты из пейпера.


📌Лицензирование: MIT License


🟡Arxiv
🟡Набор моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #ELF  #MIT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓3531👍18🔥10👏7🗿2🍓1