Машинное обучение digest – Telegram

Машинное обучение digest

@machinelearnindigest

47 subscribers

1.5K photos

202 videos

782 links

Download Telegram

About

Blog

Apps

Platform

Машинное обучение digest

Машинное обучение digest

🌟 SmolLM2: второе поколение компактных LLM от HuggingFace.

Hugging Face представила SmolLM2, новую серию SLM, оптимизированных для работы на устройствах c ограниченными ресурсами и предназначенных для выполнения задач генерации и обобщения текста на английском языке и вызова функций.

Модели SmolLM2 были обучены на миксе из наборов данных FineWeb-Edu, DCLM и Stack. Тестирование после обучения показало превосходство старшей модели SmolLM2-1.7B над Meta Llama 3.2 1B и Qwen2.5-1.5B.

Модели доступны в трёх конфигурациях: 135М, 360М и 1.7B параметров, каждая модель имеет свою Instruct-версию, а 1.7B и 360М еще и официальные квантованные версии GGUF:

⏩

🟢

SmolLM2-1.7B-Instruct

🟢

⏩

🟠

SmolLM2-360M-Instruct

🟠

⏩

🟠

SmolLM2-135M-Instruct

🟠

Instruct GGUF от комьюнити

▶️Пример запуска модели SmolLM2-1.7B в полной точности на Transformers :

from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "HuggingFaceTB/SmolLM2-1.7B"
device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
inputs = tokenizer.encode("Gravity is", return_tensors="pt").to(device)
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

📌Лицензирование: Apache 2.0 License.

🟡

Коллекция моделей на HF

🟡

Demo SmolLM2 1.7B

@ai_machinelearning_big_data

#AI #ML #SLM #Huggingface #SmolLM2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views10:14

Машинное обучение digest

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 Cosmos Tokenizer: эффективная токенизация изображений и видео от NVIDIA.

Cosmos Tokenizer - набор токенизаторов для изображений и видео с высокой степенью сжатия при сохранении качества реконструкции, представленный на конференции Conference for Robot Learning 2024, которая проходит до 9 ноября в Мюнхене.

Cosmos Tokenizer предлагает непрерывную (C) и дискретную (D) токенизацию для изображений (I) и видео (V), что формирует 4 типа токенизаторов: CI, DI, CV и DV.

Cosmos Tokenizer имеет внушительные показатели сжатия: 8x или 16x для пространственного сжатия изображений и 4x или 8x для временного сжатия видео, при этом работает до 12 раз быстрее, чем другие современные токенизаторы, сохраняя при этом высокое качество изображения.

Такая эффективность обусловлена легкой временно-причинной архитектурой, использующей причинную временную свертку и слои внимания. Этот дизайн архитектуры гарантирует, что обработка каждого кадра зависит только от текущих и прошлых кадров, сохраняя временную согласованность видео.

Для оценки Cosmos Tokenizer использовались стандартные наборы данных и новый набор данных TokenBench, созданный NVIDIA. Cosmos Tokenizer сравнивался с современными токенизаторами с использованием метрик PSNR, SSIM, rFID и rFVD.

Результаты тестирования показали превосходство Cosmos Tokenizer над существующими методами как по качеству реконструкции, так и по скорости работы.

▶️ В репозитории на Github опубликован код для установки, сборки docker Cosmos Tokenizer, примеры запуска для в непрерывном латенте, кодирования в дискретные токены, запуск токенизаторов на примерах изображений и видео из тестового набора и запуск с Pytorch.

📌Лицензирование: NVIDIA Open Model License

🟡

Страница проекта

🟡

Набор на HF

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #NVIDIA #Tokenizer #Cosmos

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3 views16:00

Машинное обучение digest

Forwarded from Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.

Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀

🔗

HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT

🔗

Github: https://github.com/THUDM/CogVideo

🔗

Paper: https://arxiv.org/abs/2408.06072
🔗Подробнее про модели: https://xn--r1a.website/ai_machinelearning_big_data/5429

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views08:51

Машинное обучение digest

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.

Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀

🔗

HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT

🔗

Github: https://github.com/THUDM/CogVideo

🔗

Paper: https://arxiv.org/abs/2408.06072
🔗Подробнее про модели: https://xn--r1a.website/ai_machinelearning_big_data/5429

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views08:51

Машинное обучение digest

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 AdaCache: ускорение DiT в генерации видео через необучаемое адаптивное кэширование.

AdaCache основан на наблюдении, что «не все видео одинаковы»: некоторым видео требуется меньше шагов денойза для достижения приемлемого качества, чем другим.

AdaCache использует кэширование остаточных вычислений в блоках трансформера (например, выходные данные механизмов внимания или MLP) на определенном шаге диффузии и повторного использования их на нескольких последующих шагах, количество которых зависит от генерируемого видео.

Решение о том, когда нужно выполнить следующее вычисление, принимается на основе метрики расстояния, которая измеряет скорость изменения между сохраненными и текущими представлениями.

Чтобы избежать артефактов для динамики используется регуляризация движения (MoReg).

MoReg оценивает движения в латентном пространстве на основе разности остаточных кадров, а чтобы эта оценка была эффективна на ранних шагах диффузии, MoReg вычисляет градиент движения, который выступает в качестве разумного раннего предиктора. И оценка движения, и градиент движения используются в качестве масштабирующего фактора метрики расстояния для регуляризации схемы кэширования AdaCache.

AdaCache был протестирован на Open-Sora-v1.2, Open-Sora-Plan-v1.1 и Latte. Результаты показали, что AdaCache обеспечивает ощутимое ускорение без ущерба для качества генерации. Фактически, он достигает ускорения в 4.49x, 3.53x и 2.46x соответственно на трех рассмотренных базовых видео.

Прикладной кейс использования AdaCache предлагается на бейслайне Open-Sora с вариантами запуска: Baseline, AdaCache и AdaCache+MoReg.

⚠️ Пример инференса рекомендуются на одном GPU A100 (80Gb)

▶️Инференс:

# Baseline
bash run_sample_video.sh configs/sample.py

# AdaCache
bash run_sample_video.sh configs/sample_adacache.py

# AdaCache+MoReg
bash run_sample_video.sh configs/sample_adacache_moreg.py

📌Лицензирование: Apache 2.0 License.

🟡

Страница проекта

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #DiT #AdaCache #Text2Video

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views09:04