ImageCritic
Модель на базе Flux.1-Kontext-dev решает проблему несогласованности мелких деталей с референсом в сгенерированных изображениях.
Применяется после к изображениям, созданным другими генераторами.
Гитхаб
HF
Демо
#referencing #imageediting
Модель на базе Flux.1-Kontext-dev решает проблему несогласованности мелких деталей с референсом в сгенерированных изображениях.
Применяется после к изображениям, созданным другими генераторами.
Гитхаб
HF
Демо
#referencing #imageediting
👍24🔥4
One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer
Оживлятор персонажей по позе от китайцев на базе Wan2.1
Уже поддерживается в ComfyUI-WanVideoWrapper
Гитхаб
Модели:
https://huggingface.co/MochunniaN1/One-to-All-1.3b_1
https://huggingface.co/MochunniaN1/One-to-All-1.3b_2
https://huggingface.co/MochunniaN1/One-to-All-14b
Спасибо @m_franz
#characteranimation #referencing #pose2video
Оживлятор персонажей по позе от китайцев на базе Wan2.1
Уже поддерживается в ComfyUI-WanVideoWrapper
Гитхаб
Модели:
https://huggingface.co/MochunniaN1/One-to-All-1.3b_1
https://huggingface.co/MochunniaN1/One-to-All-1.3b_2
https://huggingface.co/MochunniaN1/One-to-All-14b
Спасибо @m_franz
#characteranimation #referencing #pose2video
1🔥13👍6👎1
WanGP v9.81
В инструмент для lowVRAM-генерации добавлена поддержка модели Hunyuan Video 1.5 i2v Distilled и ускорителя Lora Accelerator, извлечённого из неё. Также добавлена поддержка Magcache (оптимизировано для 20 шагов) для Hunyuan Video 1.5
Поддержка Z-Image-Turbo и Flux.2 тоже есть с контролнетом и масками, Wan Steady Dancer (альтернатива Animate), time-to-move (TTM)
Из остальных обновок:
- Кнопка паузы: позволяет приостановить генерацию видео и освободить большую часть VRAM, используемой WanGP. При этом занятая RAM остаётся занятой. Можно возобновить генерацию с того же места
- Режим WanGP Headless: позволяет создавать очередь генерации видео через стандартный интерфейс WanGP, сохранять её и обрабатывать в пакетном режиме без запуска веб-интерфейса.
Спасибо @EvgenyiPerm
#tools #text2video #image2video #video2video #optimization #zimage #hv15
В инструмент для lowVRAM-генерации добавлена поддержка модели Hunyuan Video 1.5 i2v Distilled и ускорителя Lora Accelerator, извлечённого из неё. Также добавлена поддержка Magcache (оптимизировано для 20 шагов) для Hunyuan Video 1.5
Поддержка Z-Image-Turbo и Flux.2 тоже есть с контролнетом и масками, Wan Steady Dancer (альтернатива Animate), time-to-move (TTM)
Из остальных обновок:
- Кнопка паузы: позволяет приостановить генерацию видео и освободить большую часть VRAM, используемой WanGP. При этом занятая RAM остаётся занятой. Можно возобновить генерацию с того же места
- Режим WanGP Headless: позволяет создавать очередь генерации видео через стандартный интерфейс WanGP, сохранять её и обрабатывать в пакетном режиме без запуска веб-интерфейса.
Спасибо @EvgenyiPerm
#tools #text2video #image2video #video2video #optimization #zimage #hv15
GitHub
GitHub - deepbeepmeep/Wan2GP: A fast AI Video Generator for the GPU Poor. Supports Wan 2.1/2.2, Qwen Image, Hunyuan Video, LTX…
A fast AI Video Generator for the GPU Poor. Supports Wan 2.1/2.2, Qwen Image, Hunyuan Video, LTX Video and Flux. - deepbeepmeep/Wan2GP
🔥9👍5❤2
GLM-4.6V: Open Source Multimodal Models with Native Tool Use
Большая мультимодальная модель с поддержкой использования инструментов.
Понимает визуальный контент напрямую, не переводя в текстовое описание
Контекст 128K
Модель представлена в двух версиях: GLM-4.6V (106B) для облачных и высокопроизводительных кластеров и GLM-4.6V-Flash (9B) для локального развёртывания
GitHub Repository: https://github.com/zai-org/GLM-V
HF: https://huggingface.co/zai-org/GLM-4.6V
Online Demo: https://chat.z.ai/
API Access: Z.ai Open Platform
Desktop Assistant App: https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
#assistant #multimodal #vlm #mllm
Большая мультимодальная модель с поддержкой использования инструментов.
Понимает визуальный контент напрямую, не переводя в текстовое описание
Контекст 128K
Модель представлена в двух версиях: GLM-4.6V (106B) для облачных и высокопроизводительных кластеров и GLM-4.6V-Flash (9B) для локального развёртывания
GitHub Repository: https://github.com/zai-org/GLM-V
HF: https://huggingface.co/zai-org/GLM-4.6V
Online Demo: https://chat.z.ai/
API Access: Z.ai Open Platform
Desktop Assistant App: https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
#assistant #multimodal #vlm #mllm
❤4👍4
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ который мы заслужили
Что-то под названием Halftime. Внедряет рекламу в кино и сериалы так будто это часть сюжета. Персонажи отвлекаются от основного действия чтобы продемонстрировать товар.
Показали пример на «Форс-мажорах» и «Друзьях»
#news
Что-то под названием Halftime. Внедряет рекламу в кино и сериалы так будто это часть сюжета. Персонажи отвлекаются от основного действия чтобы продемонстрировать товар.
Показали пример на «Форс-мажорах» и «Друзьях»
#news
👎17😁11😭5😱3❤2
RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards
Генератор картинок высокого качества на базе FLUX.1-dev + Flow GRPO. Qwen-3 4B в качестве LLM для оптимизации промптов
По реализму превосходит GPT-Image-1, Qwen-Image и FLUX-Krea
Гитхаб
Спасибо @m_franz
#text2image
Генератор картинок высокого качества на базе FLUX.1-dev + Flow GRPO. Qwen-3 4B в качестве LLM для оптимизации промптов
По реализму превосходит GPT-Image-1, Qwen-Image и FLUX-Krea
Гитхаб
Спасибо @m_franz
#text2image
👍23🤔5
jina-vlm
Новая #vlm на 2B параметров на базе Qwen3-1.7B достигла #SOTA в многоязычном VQA, без катастрофического забывания в задачах, связанных только с текстом
HF
#assistant
Новая #vlm на 2B параметров на базе Qwen3-1.7B достигла #SOTA в многоязычном VQA, без катастрофического забывания в задачах, связанных только с текстом
HF
#assistant
👍14❤1