Qwen-Image-Layered
Редактор картинок от Qwen на базе #qwenimage
Hаскладывает изображения на несколько RGBA-слоёв. Это позволяет редактировать каждый слой отдельно, не трогая остальные части картинки
Может менять размер объектов без искажений
Может рекурсивно раскладывать слои — то есть любой слой можно разложить ещё на более мелкие слои
Гитхаб
HF
GGUF
Демо
спасибо @m_franz @stefanfalkok
#imageediting #image2rgba #rgba #gguf
Редактор картинок от Qwen на базе #qwenimage
Hаскладывает изображения на несколько RGBA-слоёв. Это позволяет редактировать каждый слой отдельно, не трогая остальные части картинки
Может менять размер объектов без искажений
Может рекурсивно раскладывать слои — то есть любой слой можно разложить ещё на более мелкие слои
Гитхаб
HF
GGUF
Демо
спасибо @m_franz @stefanfalkok
#imageediting #image2rgba #rgba #gguf
👍15🔥4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
FlashPortrait: 6× Faster Infinite Portrait Animation with Adaptive Latent Prediction
Оживлятор портретов от Microsoft и WAN на базе Wan2.1-14B
Умеет делать бесконечную анимацию, сохраняя при этом черты лица человека.
Справляется с большими и сложными движениями лица, не теряя качества
Плавно соединяет фрагменты видео, чтобы переходы были незаметными
Вот тут забавно:
Но:
И кажется кто-то выложил все видео без звука
Гитхаб
HF
спасибо @m_franz
#portraitanimation
Оживлятор портретов от Microsoft и WAN на базе Wan2.1-14B
Умеет делать бесконечную анимацию, сохраняя при этом черты лица человека.
Работает в 6 раз быстрее аналогов.
Справляется с большими и сложными движениями лица, не теряя качества
Плавно соединяет фрагменты видео, чтобы переходы были незаметными
Вот тут забавно:
FlashPortrait поддерживает создание видеороликов бесконечной длины с разрешением 480x832, или 832x480, или 512x512, или 720x720, или 720x1280, или 1280x720
Но:
Если у вас возникнут проблемы с нехваткой памяти, вы можете соответствующим образом уменьшить количество анимированных кадров или разрешение выходных данных.
И кажется кто-то выложил все видео без звука
Гитхаб
HF
спасибо @m_franz
#portraitanimation
🔥13👍7
😁31🍌2👍1
Media is too big
VIEW IN TELEGRAM
MapAnything: Universal Feed-Forward Metric 3D Reconstruction
Модель от Meta (запрещено в РФ), создаёт 3D-реконструкцию сцены из разных видов данных, например, из картинок или информации о глубине и положении камеры
— берёт одну или несколько картинок и, если есть, дополнительную геометрическую инфу вроде калибровки камеры, положения или данных о глубине
— выдаёт 3D-геометрию сцены и данные о камерах
— работает как универсальная модель для разных задач 3D-видения: может делать структуру из движения без калибровки, работать с несколькими видами одновременно, оценивать глубину по одной картинке, определять положение камеры, дополнять данные о глубине и прочее
Гитхаб
Демо
HF
#imageto3d #image2scene
Модель от Meta (запрещено в РФ), создаёт 3D-реконструкцию сцены из разных видов данных, например, из картинок или информации о глубине и положении камеры
— берёт одну или несколько картинок и, если есть, дополнительную геометрическую инфу вроде калибровки камеры, положения или данных о глубине
— выдаёт 3D-геометрию сцены и данные о камерах
— работает как универсальная модель для разных задач 3D-видения: может делать структуру из движения без калибровки, работать с несколькими видами одновременно, оценивать глубину по одной картинке, определять положение камеры, дополнять данные о глубине и прочее
Гитхаб
Демо
HF
#imageto3d #image2scene
🔥8👍3❤1
LongVie 2: Multimodal Controllable Ultra-Long Video World Model
Очередная генерилка длинных видео (до 5 минут) на базе Wan 2.1 480P, от Nvidia
Генерация управляется контролнетом по глубине и карте точек
Гитхаб
HF
#longvideo #image2video
Очередная генерилка длинных видео (до 5 минут) на базе Wan 2.1 480P, от Nvidia
Генерация управляется контролнетом по глубине и карте точек
Гитхаб
HF
#longvideo #image2video
1👍11
Motion Path Animation From A Single Image with WanMove in Comfy
Вчерашний стрим по Wan-Move от ComfyOrg
воркфлоу
#wan #motioncontrol #tutorial #comfyui #workflow
Вчерашний стрим по Wan-Move от ComfyOrg
воркфлоу
#wan #motioncontrol #tutorial #comfyui #workflow
YouTube
Motion Path Animation From A Single Image with WanMove in Comfy
Hosts: @MachineDelusions & @JulienAIArt
🎬 WAN Move Deep Dive — Path-Based Image Animation in ComfyUI
In this deep dive, we explore WanMove using WanVideoWrapper and the FL Path Animator node to turn a single still frame into a fully animated video — using…
🎬 WAN Move Deep Dive — Path-Based Image Animation in ComfyUI
In this deep dive, we explore WanMove using WanVideoWrapper and the FL Path Animator node to turn a single still frame into a fully animated video — using…
👍5❤1
Media is too big
VIEW IN TELEGRAM
IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning
Видеоредактор от Baidu
Добавляет на видео сложные эффекты типа пламя, частицы, мультяшных персонажей
Код ждем
#videoediting
Видеоредактор от Baidu
Добавляет на видео сложные эффекты типа пламя, частицы, мультяшных персонажей
Код ждем
#videoediting
👍4🤷♂1🤓1
This media is not supported in your browser
VIEW IN TELEGRAM
Exploring MLLM-Diffusion Information Transfer with MetaCanvas
Фреймворк, включает у мультимодальных языковых моделей (MLLM) способность генерировать изображения и видео и управлять процессом их создания. В отличие от других подходов, где MLLM просто кодируют текст для диффузионных моделей, здесь они реально участвуют в планировании и контроле генерации
Короче, MetaCanvas даёт MLLM больше власти в процессе генерации, а не просто держит их в стороне как простых текстовых кодировщиков. Возможности:
— генерирует изображения по тексту
— создаёт видео по тексту или изображению
— редактирует изображения и видео
— генерирует видео в контексте, учитывая уже имеющиеся элементы
Код ждем
#mllm #mlm #multimodal #vlm
Фреймворк, включает у мультимодальных языковых моделей (MLLM) способность генерировать изображения и видео и управлять процессом их создания. В отличие от других подходов, где MLLM просто кодируют текст для диффузионных моделей, здесь они реально участвуют в планировании и контроле генерации
Короче, MetaCanvas даёт MLLM больше власти в процессе генерации, а не просто держит их в стороне как простых текстовых кодировщиков. Возможности:
— генерирует изображения по тексту
— создаёт видео по тексту или изображению
— редактирует изображения и видео
— генерирует видео в контексте, учитывая уже имеющиеся элементы
Код ждем
#mllm #mlm #multimodal #vlm
👍8