382K subscribers
4.43K photos
852 videos
17 files
4.88K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 MAR+DiffLoss: Autoregressive Image Generation without Vector Quantization

Основная идея метода заключается в применении процедуры диффузии для моделирования вероятностных распределений по токенам. Такой подход исключает традиционную категориальную кросс-энтропийную функцию потерь в пользу функции Diffusion Loss. Так устраняется необходимость в сложных и зачастую несовершенных токенизаторах с дискретными значениями, чувствительных к Gradient Approximation и субоптимальному качеству реконструкции.

В прикладной реализации используется сеть денойзинга, небольшая MLP-сеть, которая работает на основе вектора, производимого авторегрессивной моделью. Эта сеть обучена предсказывать распределение для каждого токена через функцию денойзинг-диффузии.

В результате MAR+DiffLoss модель может быстро генерировать изображения высокого качества , используя внутренние преимущества скорости моделирования последовательностей.

Одним из полученных достижений в ходе исследования стала способность модели генерировать изображения со скоростью менее 0,3 секунды на изображение при достижении впечатляющего показателя Fréchet Inception Distance (FID) менее 2,0 на наборе данных ImageNet.

Для тестирования демонстрации метода предлагается настроенный ноутбук для Google Collab. Помимо этого, в репозитории на Github размещены инструкции и код для самостоятельной тренировки моделей и запуску оценочного бенчмарка на датасете ImageNet.

⚠️ Внимание, тренировочный процесс крайне ресурсоемкий.

▶️Pre-trained модели выложены на Dropbox:
🟢MAR-B (280M)
🟢MAR-L (479M)
🟢MAR-H (943M)


📌Лицензирование : MIT license


🟡Arxiv
🟡Результаты бенчмарка
🟡Demo Collab
🖥Github [ Stars: 184 | Issues: 0 | Forks: 7]


@ai_machinelearning_big_data

#AI #ML #Diffusion #Pytorch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥72
⚡️ ml_mdm: Набор диффузионных моделей Matryoshka от Apple.

Matryoshka (MDM) - сквозная структура для синтеза изображений и видео высокого разрешения. Вместо обучения отдельных моделей использован многомасштабный процесс совместной диффузии, в котором модели меньшего масштаба вложены в модели большего масштаба. Такая структура вложенности не только облегчает обмен свойствами между масштабами, но и обеспечивает постепенный рост обучаемой архитектуры.

ml_mdm - Python-фреймворк для синтеза изображений и видео c с помощью набора pre-trained моделей Matryoshka.

Codebase фреймворка:

🟠ml_mdm.models - реализация core-модели;
🟠ml_mdm.diffusion - диффузионный пайплайн;
🟠ml_mdm.config - подключение конфигурационных классов данных к моделям, конвейерам с помощью simple parsing (надстройка к argparse);
🟠ml_mdm.clis - все инструменты cli проекта.

Для тестирования инференса, оценки на датасете CC12M и обучении на собственных наборах изображений представлены 3 pre-trained модели, построенные на архитектурах U-Net и Nested U-Nets, обученные на 50 млн. пар "текст-изображение" с Flickr:

🟢vis_model_64x64;
🟢vis_model_256x256;
🟢vis_model_1024x1024.

▶️Локальный запуск:

Зависимости для установки по умолчанию в файле pyproject.toml выбраны таким образом, чтобы можно было установить библиотеку даже на CPU-only систему.

#  Running Test Cases:
> pytest # will run all test cases - including ones that require a gpu
> pytest -m "not gpu" # run test cases that can work with just cpu

# Download the models:
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr64/vis_model.pth --output vis_model_64x64.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr256/vis_model.pth --output vis_model_256x256.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr1024/vis_model.pth --output vis_model_1024x1024.pth

# Launch Web Demo:
torchrun --standalone --nproc_per_node=1 ml_mdm/clis/generate_sample.py --port 19999


⚠️ В Issues репозитория есть обращение о некорректной команде запуска Web Demo. Следите за обновлением тикета и коммитами.


📌Лицензирование :  Apple Inc.


🟡Arxiv
🟡Страница проекта
🖥Github [ Stars: 166 | Issues: 3 | Forks: 6]


@ai_machinelearning_big_data

#AI #Diffusion #ML #Text2Image #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍198🥰4