This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Святые опенсорсные люди объединили в одну модель FusioniX последние наработки по Wan, чтобы генерить видео в высоком качестве, быстро, с контролем кадра, и изначально в Comfy.
Под капотом:
* CausVid – для динамики и плавных движений
* AccVideo – для стабильности картинки и скорости
* MoviiGen1.1 – освещение и кинематографичность
* MPS Reward LoRA – затюнено на динамику и детали
* Кастомные лоры – текстуры, чёткость, и детализация
Сборка на основе модели Wan размером 14B, поэтому лучше иметь 24 ГБ VRAM или больше, хотя есть и пожатые GGUF версии, если мало видеопамяти. Веса есть для t2v, i2v, VACE и Phantom моделей в вариантах fp16 и без указания точности.
Понимание промта такое же как у базового Вана. Чем детальнее, тем лучше. Если что заходите на сайт Wan, вкидывайте короткий промт, расширяйте его, копируете и вставляйте в Comfy. Или вот, они сами предлагают генератор промтов в ChatGPT.
Я погонял на 4090 на базовом воркфлоу без контроля позы. Действительно генерит шустро, сохраняя детали. Цвета только тянет в более насыщенные, и камеру норовит перевести на ручную там, где не просишь.
Мех котэ из этого теста наконец-то стал ощутимо колыхаться. При этом не понадобилось упоминать, что идёт снег и мех в снежинках — модель это сама считала с картинки.
По умолчанию стоит генерация в 10 шагов, но пишут, что годные результаты можно и с 6-8 получить. И это без оптимизаторов а-ля torch compile, block swaps, tea cache, итд. Последним говорят не пользоваться.
1024х576x16 fps генерится ~5 минут
1280х720х16 fps печется ~10 минут
752х608х16 fps c зимним котэ заняло ~3 минуты
Ноды Kijai поддерживаются из коробки.
Если нужно прибавить динамики и минимизировать слоумо, ставим фреймрейт 24 fps, а длину 121 кадр.
PS: Миджорни... можешь не выходить.
Хаггинг
Хаггинг (у кого мало VRAM)
Comfy воркфлоу
Генератор промтов
Под капотом:
* CausVid – для динамики и плавных движений
* AccVideo – для стабильности картинки и скорости
* MoviiGen1.1 – освещение и кинематографичность
* MPS Reward LoRA – затюнено на динамику и детали
* Кастомные лоры – текстуры, чёткость, и детализация
Сборка на основе модели Wan размером 14B, поэтому лучше иметь 24 ГБ VRAM или больше, хотя есть и пожатые GGUF версии, если мало видеопамяти. Веса есть для t2v, i2v, VACE и Phantom моделей в вариантах fp16 и без указания точности.
Понимание промта такое же как у базового Вана. Чем детальнее, тем лучше. Если что заходите на сайт Wan, вкидывайте короткий промт, расширяйте его, копируете и вставляйте в Comfy. Или вот, они сами предлагают генератор промтов в ChatGPT.
Я погонял на 4090 на базовом воркфлоу без контроля позы. Действительно генерит шустро, сохраняя детали. Цвета только тянет в более насыщенные, и камеру норовит перевести на ручную там, где не просишь.
Мех котэ из этого теста наконец-то стал ощутимо колыхаться. При этом не понадобилось упоминать, что идёт снег и мех в снежинках — модель это сама считала с картинки.
По умолчанию стоит генерация в 10 шагов, но пишут, что годные результаты можно и с 6-8 получить. И это без оптимизаторов а-ля torch compile, block swaps, tea cache, итд. Последним говорят не пользоваться.
1024х576x16 fps генерится ~5 минут
1280х720х16 fps печется ~10 минут
752х608х16 fps c зимним котэ заняло ~3 минуты
Ноды Kijai поддерживаются из коробки.
Если нужно прибавить динамики и минимизировать слоумо, ставим фреймрейт 24 fps, а длину 121 кадр.
PS: Миджорни... можешь не выходить.
Хаггинг
Хаггинг (у кого мало VRAM)
Comfy воркфлоу
Генератор промтов
4
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Больше контроля для Flux и Wan!
Normalized Attention Guidance (NAG): диффузионным моделям генерящим в несколько шагов, как Flux Schnell и или Wan CausVid не хватает поддержки CFG, что делает негативный промт неэффективным.
NAG восстанавливает эффективность негативного промта, позволяя контролировать, что должно быть в кадре, а чего нет. Плюс улучшается общее следование промту вместе качеством и детализацией. Можно избавиться от характерного пластикового стиля Flux (или минимизировать его).
С обычными недистиллированными моделями вроде Flux Dev или SD 3,5 Large тоже работает, и идёт как дополнение к CFG, улучшающее результат.
Kijai уже подрубил в Comfy ноды KJNodes и WanVideoWrapper. Обновите их и у вас в поиске должна появиться нода WanVideoNAG. Для Flux нод пока нету.
Демо (Wan)
Демо (Flux Dev)
Демо (Flux Schnell)
Сайт
Гитхаб
Normalized Attention Guidance (NAG): диффузионным моделям генерящим в несколько шагов, как Flux Schnell и или Wan CausVid не хватает поддержки CFG, что делает негативный промт неэффективным.
NAG восстанавливает эффективность негативного промта, позволяя контролировать, что должно быть в кадре, а чего нет. Плюс улучшается общее следование промту вместе качеством и детализацией. Можно избавиться от характерного пластикового стиля Flux (или минимизировать его).
С обычными недистиллированными моделями вроде Flux Dev или SD 3,5 Large тоже работает, и идёт как дополнение к CFG, улучшающее результат.
Kijai уже подрубил в Comfy ноды KJNodes и WanVideoWrapper. Обновите их и у вас в поиске должна появиться нода WanVideoNAG. Для Flux нод пока нету.
Демо (Wan)
Демо (Flux Dev)
Демо (Flux Schnell)
Сайт
Гитхаб
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Tencent: выпустили Хуньянь 3D 2.1.
Заменили модель для генерации текстур c RGB на PBR, которая использует физическое моделирование материалов для создания текстур с фотореалистичным взаимодействием света (например, отражения на металле).
Также выпустили тренировочный код и модели на хиггинге.
Для генерации меша нужно 10 ГБ VRAM, текстур 21 ГБ VRAM, а текстурированного меша 29 ГБ VRAM.
Хуньянь 3D 2.5 пока всё также не в опенсорсе.
Демо
Сайт
Гитхаб
Хаггинг
Заменили модель для генерации текстур c RGB на PBR, которая использует физическое моделирование материалов для создания текстур с фотореалистичным взаимодействием света (например, отражения на металле).
Также выпустили тренировочный код и модели на хиггинге.
Для генерации меша нужно 10 ГБ VRAM, текстур 21 ГБ VRAM, а текстурированного меша 29 ГБ VRAM.
Хуньянь 3D 2.5 пока всё также не в опенсорсе.
Демо
Сайт
Гитхаб
Хаггинг
Midjourney: обновили генератор картинок, и подрубили V7 к инструментам Style Reference и Omni-reference. Теперь V7 является моделью по умолчанию.
* Она лучше улавливает стиль
* Работает там, где промт расходится со стилем изображения
* Меньше даёт отсебятины
* Мудборды теперь передают настроение точнее
Появились новые стили в
Если нужно использовать старые коды стиля, выбирайте V6 или указывайте
Сайт
Анонс
* Она лучше улавливает стиль
* Работает там, где промт расходится со стилем изображения
* Меньше даёт отсебятины
* Мудборды теперь передают настроение точнее
Появились новые стили в
--sref random, теперь они стали ещё разнообразнее (см. картинку в посте).Если нужно использовать старые коды стиля, выбирайте V6 или указывайте
--sv 4 в промте.Сайт
Анонс
Media is too big
VIEW IN TELEGRAM
Работа участника нашего сообщества @kyoukobu, его канал Моя тайга не горит
Дальше слово автору:
Дальше слово автору:
Последнее время я часто использую AI для технической работы — в этой работе есть творчество, но сегодня захотелось немного отдохнуть и протестировать возможности в сторителлинга. Раньше, во времена первого видеогенератора Pika Lab, я устраивал себе челленджи: каждый день — одно нейровидео. Сейчас такой челлендж не планирую, так как это дорого и нет времени, но иногда буду проводить подобные тесты для себя, своего внутреннего творца и для вас.
Когда-то давно, работая режиссёром, я мечтал снять рекламу для своей тачки — старенького Suzuki Escudo, но руки не доходили. Теперь у меня Toyota Prado 95-го кузова. И сегодня за 5 часов я создал для неё коммерческий ролик, которого не дождалась прошлая машина.
Всё — 100% генерация: голос, музыка, видео, саунд-дизайн. Все это я сделал используя только промпты и идеи из своей головы. Использовал REVE, MJ, KLING, RUNWAY и собрал всё в DaVinci Resolve.
1