Только мы разговаривали про 4D видео из сплатов, где можно свободно менять угол обзора, но нужен риг из множества камер.
А сегодня Nvidia опубликовала код видео модели GEN3C, в котором можно брать на вход одну картинку, двигать камерой внутри сцены словно в 3D пространстве, и получать видео с нужным пролётом камеры. Альтернативно можно подавать несколько картинок или видео.
Под капотом используется 3D кэш в виде облака точек, полученного из карты глубины изображения или вытащенных кадров. Для генерации новых видов GEN3C задействует траекторию движения камеры от юзера и 2D рендеры 3D кэша. GEN3C можно подрубать к разным видео генераторам, например, видосы выше сгенерированы в Cosmos и есть примеры на SVD.
Про потребление VRAM не сказано, однако чуваку в твиттере 48 ГБ VRAM не хватает. Есть скрипт для запуска на одном GPU и на Multi-GPU. Зато интерфейс с рульками удобными. И да, только Linux... хэй Ubuntu... кыс-кыс!
Сайт
Гитхаб
А сегодня Nvidia опубликовала код видео модели GEN3C, в котором можно брать на вход одну картинку, двигать камерой внутри сцены словно в 3D пространстве, и получать видео с нужным пролётом камеры. Альтернативно можно подавать несколько картинок или видео.
Под капотом используется 3D кэш в виде облака точек, полученного из карты глубины изображения или вытащенных кадров. Для генерации новых видов GEN3C задействует траекторию движения камеры от юзера и 2D рендеры 3D кэша. GEN3C можно подрубать к разным видео генераторам, например, видосы выше сгенерированы в Cosmos и есть примеры на SVD.
Про потребление VRAM не сказано, однако чуваку в твиттере 48 ГБ VRAM не хватает. Есть скрипт для запуска на одном GPU и на Multi-GPU. Зато интерфейс с рульками удобными. И да, только Linux... хэй Ubuntu... кыс-кыс!
Сайт
Гитхаб
Fal: говорят, что они первыми наваяли у себя вертикальные видео в Veo3.
Проблема в том, что похоже это аутпейнт. Причём и на сайте у них, и в превью на компе — полученное видео отображается как вертикальное, а стоит его воспроизвести или загрузить в телегу, ты видишь только горизонтальное (см. второе видео). Что занятно, первое видео скачано из твиттера FAL и оно действительно вертикальное.
А ещё сами гугл выкатили Veo3 Fast, доступную во Flow и приложении Gemini. Цена в 5 раз дешевле (20 кредитов против 100 за видео), скорость в 2 раза быстрее, качество и длительность те же: 720p и 8 сек. Третье видео Fast, четвёртое Quality.
Fast больше подходит для превью перед генерацией в качестве. Но народ в целом жалуется в твитторе на Veo3 из-за высокой стоимости, и запоротых генераций, за которые всё равно идёт списание.
Проблема в том, что похоже это аутпейнт. Причём и на сайте у них, и в превью на компе — полученное видео отображается как вертикальное, а стоит его воспроизвести или загрузить в телегу, ты видишь только горизонтальное (см. второе видео). Что занятно, первое видео скачано из твиттера FAL и оно действительно вертикальное.
А ещё сами гугл выкатили Veo3 Fast, доступную во Flow и приложении Gemini. Цена в 5 раз дешевле (20 кредитов против 100 за видео), скорость в 2 раза быстрее, качество и длительность те же: 720p и 8 сек. Третье видео Fast, четвёртое Quality.
Fast больше подходит для превью перед генерацией в качестве. Но народ в целом жалуется в твитторе на Veo3 из-за высокой стоимости, и запоротых генераций, за которые всё равно идёт списание.
This media is not supported in your browser
VIEW IN TELEGRAM
Там Midjourney наводят финальные штрихи перед релизом своего видеогенератора. Просят пользователей проголосовать за понравившиеся видео, не презентующие финальное качество.
У кого подписка, подропайте в комменты чё там хоть.
https://www.midjourney.com/rank-video
У кого подписка, подропайте в комменты чё там хоть.
https://www.midjourney.com/rank-video
Media is too big
VIEW IN TELEGRAM
Новая работа члена нашего сообщества @lRba518FI34b3Nt0 для его проекта vvonderson.
Дальше слово автору:
Предыдущая его работа "Maledict" тут.
Дальше слово автору:
Всё началось с пары генераций в Midjourney без промптов, только sref изображения. Одну из них я отправил salty_assorti, а он сделал видео в только что вышедшем Veo 2.
Получился парень, будто кайфующий под музыку. Эта сцена вдохновила нас на видео, тесно связанное с ритмом и объединённое общим визуальным стилем. Было решено делать упор не на реализм, а на цепляющий визуал и динамику.
Сразу выбрали трек, отобрали самые интересные изображения и начали экспериментировать. Почти все генерации img2video делались без промптов: 70% сцен это Luma Ray 2, остальное Higgsfield, Hailuo и Veo 2.
Luma отлично подходит для экспериментов и регулярно выдает интересные сцены без промпта. Похожая ситуация с Hailuo, который тоже креативно "додумывает" визуал. А вот Veo 2 и Higgsfield требуют точных указаний, "на вайбе" не работают.
Любимая часть — интро. Оно полностью сделано в Luma, которая позволяет бесшовно продлевать сцены. Я задал вращение камеры по часовой стрелке и Luma сгенерировала плавное, непрерывное движение без пауз.
Монтаж делался в CapCut, отличное решение для небольших проектов. В нём много переходов и эффектов, которые обязательны для динамичного видео под музыку.
Отдельно выделю саунд дизайн. Изначально он не планировался, но в финальной версии стало ясно, что чего-то не хватает. Я добавил шумы и переходы, особенно это заметно в интро. Саунд дизайн делал в FL Studio, без помощи ИИ, мой опыт муз продюсера помог в этом.
Больше всего времени ушло на монтаж и саунд дизайн, так как мне как музыканту хотелось максимального совпадения ритма трека и визуала.
Предыдущая его работа "Maledict" тут.
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Святые опенсорсные люди объединили в одну модель FusioniX последние наработки по Wan, чтобы генерить видео в высоком качестве, быстро, с контролем кадра, и изначально в Comfy.
Под капотом:
* CausVid – для динамики и плавных движений
* AccVideo – для стабильности картинки и скорости
* MoviiGen1.1 – освещение и кинематографичность
* MPS Reward LoRA – затюнено на динамику и детали
* Кастомные лоры – текстуры, чёткость, и детализация
Сборка на основе модели Wan размером 14B, поэтому лучше иметь 24 ГБ VRAM или больше, хотя есть и пожатые GGUF версии, если мало видеопамяти. Веса есть для t2v, i2v, VACE и Phantom моделей в вариантах fp16 и без указания точности.
Понимание промта такое же как у базового Вана. Чем детальнее, тем лучше. Если что заходите на сайт Wan, вкидывайте короткий промт, расширяйте его, копируете и вставляйте в Comfy. Или вот, они сами предлагают генератор промтов в ChatGPT.
Я погонял на 4090 на базовом воркфлоу без контроля позы. Действительно генерит шустро, сохраняя детали. Цвета только тянет в более насыщенные, и камеру норовит перевести на ручную там, где не просишь.
Мех котэ из этого теста наконец-то стал ощутимо колыхаться. При этом не понадобилось упоминать, что идёт снег и мех в снежинках — модель это сама считала с картинки.
По умолчанию стоит генерация в 10 шагов, но пишут, что годные результаты можно и с 6-8 получить. И это без оптимизаторов а-ля torch compile, block swaps, tea cache, итд. Последним говорят не пользоваться.
1024х576x16 fps генерится ~5 минут
1280х720х16 fps печется ~10 минут
752х608х16 fps c зимним котэ заняло ~3 минуты
Ноды Kijai поддерживаются из коробки.
Если нужно прибавить динамики и минимизировать слоумо, ставим фреймрейт 24 fps, а длину 121 кадр.
PS: Миджорни... можешь не выходить.
Хаггинг
Хаггинг (у кого мало VRAM)
Comfy воркфлоу
Генератор промтов
Под капотом:
* CausVid – для динамики и плавных движений
* AccVideo – для стабильности картинки и скорости
* MoviiGen1.1 – освещение и кинематографичность
* MPS Reward LoRA – затюнено на динамику и детали
* Кастомные лоры – текстуры, чёткость, и детализация
Сборка на основе модели Wan размером 14B, поэтому лучше иметь 24 ГБ VRAM или больше, хотя есть и пожатые GGUF версии, если мало видеопамяти. Веса есть для t2v, i2v, VACE и Phantom моделей в вариантах fp16 и без указания точности.
Понимание промта такое же как у базового Вана. Чем детальнее, тем лучше. Если что заходите на сайт Wan, вкидывайте короткий промт, расширяйте его, копируете и вставляйте в Comfy. Или вот, они сами предлагают генератор промтов в ChatGPT.
Я погонял на 4090 на базовом воркфлоу без контроля позы. Действительно генерит шустро, сохраняя детали. Цвета только тянет в более насыщенные, и камеру норовит перевести на ручную там, где не просишь.
Мех котэ из этого теста наконец-то стал ощутимо колыхаться. При этом не понадобилось упоминать, что идёт снег и мех в снежинках — модель это сама считала с картинки.
По умолчанию стоит генерация в 10 шагов, но пишут, что годные результаты можно и с 6-8 получить. И это без оптимизаторов а-ля torch compile, block swaps, tea cache, итд. Последним говорят не пользоваться.
1024х576x16 fps генерится ~5 минут
1280х720х16 fps печется ~10 минут
752х608х16 fps c зимним котэ заняло ~3 минуты
Ноды Kijai поддерживаются из коробки.
Если нужно прибавить динамики и минимизировать слоумо, ставим фреймрейт 24 fps, а длину 121 кадр.
PS: Миджорни... можешь не выходить.
Хаггинг
Хаггинг (у кого мало VRAM)
Comfy воркфлоу
Генератор промтов
4
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM