Generative Ai
3.61K subscribers
288 photos
118 videos
7 files
830 links
Анонсы интересных библиотек и принтов в сфере AI, Ml, CV для тех кто занимается DataScience, Generative Ai, LLM, LangChain, ChatGPT

По рекламе писать @miralinka,
Created by @life2film
Download Telegram
Forwarded from Machinelearning
⚡️ CogVideoX: Модель CogVideoX-5B теперь в открытом доступе

Tsinghua University (THUDM) выложили в открытый доступ более крупную модель генерации Text-to-Video серии CogVideoX - CogVideoX-5B, которая ранее была доступна только по API.

Помимо публикации большей модели, значительно оптимизирована производительность вычислений обеих моделей: CogVideoX-2B и CogVideoX-5B, изменена лицензия у младшей 2B модели на Apache 2.0 License и усовершенствован код в репозитории на Github

Теперь вы можете запускать CogVideoX-2B на более ранних GPU, например GTX 1080TI и CogVideoX-5B на современных GPU, таких как RTX 3060.


📌Лицензирование кода : Apache 2.0 License.

📌Лицензирование модели CogVideoX-2B: Apache 2.0 License.

📌Лицензирование модели CogVideoX-5B: CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).


🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🟡Demo
🖥Github [ Stars: 5.9K | Issues: 19 | Forks: 543]


@ai_machinelearning_big_data

#AI #Text2Video #Cogvideo #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1🔥1
Forwarded from Machinelearning
🌟 VEnhancer: Генеративное улучшение синтезированного видео.

VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.

VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.

Несколько дней назад VEnhancer получил обновление:

🟢Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями);
🟢Быстрая выборка с 15 шагами без потери качества (путем установки --solver_mode 'fast' в команде скрипта);
🟢Использование временного VAE для уменьшения мерцания.

Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.

⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.

Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.

▶️Установка:

# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer

# Create environment
conda create -n venhancer python=3.10
conda activate venhancer

# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt


▶️Установка пакета ffmpeg:

sudo apt-get update && apt-get install ffmpeg libsm6 libxext6  -y


▶️Инференс с помощью CLI:

bash run_VEnhancer.sh


▶️Инференс с помощью GradioUI:

python gradio_app.py



🟡Страница проекта
🟡Arxiv
🟡Модель
🟡Demo Video
🖥Github [ Stars: 224 | Issues: 8 | Forks: 13]


@ai_machinelearning_big_data

#AI #Text2Video #VEnchancer #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1🔥1
Forwarded from Machinelearning
🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.

Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.

▶️ Ключевые особенности версии 1.3.0:

🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.

🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.

🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.

🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.

⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.

▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.


📌Лицензирование: MIT License.


🟡Модель
🟡Сообщество в Discord
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #OpenSora #Text2Video #Image2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models

NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.

Хронометра; 121 кадр

Позиционируется для разработчиков, в помощь в симуляции мира.

Лицензия на бесплатное коммерческое использование.

Нужно 80GB VRAM

Дают попробовать!
Примеры видео спрятаны в демо

Гитхаб
Веса
Демо

#text2video #image2video #simulation #text2world #image2world
🔥3🤮1
This media is not supported in your browser
VIEW IN TELEGRAM
Lumina-Video-f24R960

Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту

#text2video #text2audio #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
Step-Video-T2V

Новый опенсорсный китайский видеогенератор

30B параметров
544px992, 204кадров
80gb VRAM

Код
HF

Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм

#text2video
👎1
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model

Генератор видео по тексту и по картинке на основе Hunyuan

Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков

На 4090 должен вывозить 97 кадров 960px544

Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V

Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу

Их канал на Youtube

#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
👍1👎1