Forwarded from Machinelearning
Tsinghua University (THUDM) выложили в открытый доступ более крупную модель генерации Text-to-Video серии CogVideoX - CogVideoX-5B, которая ранее была доступна только по API.
Помимо публикации большей модели, значительно оптимизирована производительность вычислений обеих моделей: CogVideoX-2B и CogVideoX-5B, изменена лицензия у младшей 2B модели на Apache 2.0 License и усовершенствован код в репозитории на Github
Теперь вы можете запускать CogVideoX-2B на более ранних GPU, например GTX 1080TI и CogVideoX-5B на современных GPU, таких как RTX 3060.
@ai_machinelearning_big_data
#AI #Text2Video #Cogvideo #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1🔥1
Forwarded from Machinelearning
VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.
VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.
Несколько дней назад VEnhancer получил обновление:
Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.
⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.
Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.
# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer
# Create environment
conda create -n venhancer python=3.10
conda activate venhancer
# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y
bash run_VEnhancer.sh
python gradio_app.py
@ai_machinelearning_big_data
#AI #Text2Video #VEnchancer #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1🔥1
Forwarded from Machinelearning
Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.
⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.
@ai_machinelearning_big_data
#AI #ML #OpenSora #Text2Video #Image2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤4🔥2
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models
NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.
Хронометра; 121 кадр
Позиционируется для разработчиков, в помощь в симуляции мира.
Лицензия на бесплатное коммерческое использование.
Нужно 80GB VRAM
Дают попробовать!
Примеры видео спрятаны в демо
Гитхаб
Веса
Демо
#text2video #image2video #simulation #text2world #image2world
NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.
Хронометра; 121 кадр
Позиционируется для разработчиков, в помощь в симуляции мира.
Лицензия на бесплатное коммерческое использование.
Нужно 80GB VRAM
Дают попробовать!
Примеры видео спрятаны в демо
Гитхаб
Веса
Демо
#text2video #image2video #simulation #text2world #image2world
🔥3🤮1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Lumina-Video-f24R960
Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту
#text2video #text2audio #multimodal
Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту
#text2video #text2audio #multimodal
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Magic 1-For-1: Generating One Minute Video Clips within One Minute
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
❤1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Step-Video-T2V
Новый опенсорсный китайский видеогенератор
30B параметров
544px992, 204кадров
80gb VRAM
Код
HF
Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм
#text2video
Новый опенсорсный китайский видеогенератор
30B параметров
544px992, 204кадров
80gb VRAM
Код
HF
Попробовать - вход по телефону. Мне по российскому телефону код пришел в телеграм
#text2video
👎1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция человеков
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
👍1👎1