Psy Eyes

Святые опенсорсные люди объединили в одну модель FusioniX последние наработки по Wan, чтобы генерить видео в высоком качестве, быстро, с контролем кадра, и изначально в Comfy.

Под капотом:
* CausVid – для динамики и плавных движений
* AccVideo – для стабильности картинки и скорости
* MoviiGen1.1 – освещение и кинематографичность
* MPS Reward LoRA – затюнено на динамику и детали
* Кастомные лоры – текстуры, чёткость, и детализация

Сборка на основе модели Wan размером 14B, поэтому лучше иметь 24 ГБ VRAM или больше, хотя есть и пожатые GGUF версии, если мало видеопамяти. Веса есть для t2v, i2v, VACE и Phantom моделей в вариантах fp16 и без указания точности.

Понимание промта такое же как у базового Вана. Чем детальнее, тем лучше. Если что заходите на сайт Wan, вкидывайте короткий промт, расширяйте его, копируете и вставляйте в Comfy. Или вот, они сами предлагают генератор промтов в ChatGPT.

Я погонял на 4090 на базовом воркфлоу без контроля позы. Действительно генерит шустро, сохраняя детали. Цвета только тянет в более насыщенные, и камеру норовит перевести на ручную там, где не просишь.

Мех котэ из этого теста наконец-то стал ощутимо колыхаться. При этом не понадобилось упоминать, что идёт снег и мех в снежинках — модель это сама считала с картинки.

По умолчанию стоит генерация в 10 шагов, но пишут, что годные результаты можно и с 6-8 получить. И это без оптимизаторов а-ля torch compile, block swaps, tea cache, итд. Последним говорят не пользоваться.

1024х576x16 fps генерится ~5 минут
1280х720х16 fps печется ~10 минут
752х608х16 fps c зимним котэ заняло ~3 минуты

Ноды Kijai поддерживаются из коробки.

Если нужно прибавить динамики и минимизировать слоумо, ставим фреймрейт 24 fps, а длину 121 кадр.

PS: Миджорни... можешь не выходить.

Хаггинг
Хаггинг (у кого мало VRAM)
Comfy воркфлоу
Генератор промтов

3.92K views14:07

Psy Eyes