This media is not supported in your browser
VIEW IN TELEGRAM
Братишка, я тебе пожрать принёс
Alibaba: выпустили опенсорсный видеогенератор Wan 2.1 в размерах от 1.3B до 14B.
Следование промту хорошее, в том числе и на динамичных сценах. Качество сильно скачет: где-то оно годное, чем ближе промт к датасету и выше разрешение, но зачастую всё плывёт и очень шумное, либо покрывается артефактами. Особенно, если разрешение ниже значений, на которые модель заточена.
Если сравнивать с недавними Skyreels и Stepfun, то они более детальную стабильную картинку выдают, но их и завезти ввиду размеров тоже не просто. В том же Хуньяне сгенерить искомое получалось значительно быстрее с более качественным изображением.
Есть поддержка мульти-GPU и улучшение промта с помощью Qwen (локально или и по API хаггинга). Как и Хуньянь модель может генерить и просто картинки. Но Wan ещё и умеет в английский/китайский текст на видео. Плюс у Wan нет цензуры и коммерческая лицензия, а значит притяжение сообщества будет.
Wan может генерить видео как по тексту, так и картинкам в разрешении от 480p до 720p. Позже говорят подъедет 1080p.
Text-2-video (T2V) моделей две: размером 1.3B и 14B. Вариант 1.3B потребляет 8 ГБ VRAM и 5 секундное видео в 480p на 4090 будет генерить 4 минуты. Правда выходные результаты для 2025 года будут смотреться так себе. Модель размером 14B уместится в 24 ГБ, если сделать разрешение в районе 400х400, но там и будет сильная потеря в качестве, либо 720p с длительностью около секунды, что займет ~10 мин на генерацию и шумы всё равно будут.
Image-2-video (I2V) модели тоже две, каждая на свой вариант разрешения: 480p или 720p. При этом обе только размером 14B. Для генерации видео в 720p на основе картинки нужно 70 — 80 ГБ VRAM и на A100 это займёт ~4,5 минуты. Либо опять же понижать выходное разрешение/длительность и получать артефакты.
Будем наблюдать за i2v оптимизациями комьюнити для работы по максимуму на одном GPU. Официальный воркфлоу от Comfy уже подъехал, как и сборка от Kijai.
Гайд по запуску в SwarmUI.
Демо (сайт)
Демо (хаггинг)
Хаггинг
Гитхаб
Comfy воркфлоу
Kijai
Следование промту хорошее, в том числе и на динамичных сценах. Качество сильно скачет: где-то оно годное, чем ближе промт к датасету и выше разрешение, но зачастую всё плывёт и очень шумное, либо покрывается артефактами. Особенно, если разрешение ниже значений, на которые модель заточена.
Если сравнивать с недавними Skyreels и Stepfun, то они более детальную стабильную картинку выдают, но их и завезти ввиду размеров тоже не просто. В том же Хуньяне сгенерить искомое получалось значительно быстрее с более качественным изображением.
Есть поддержка мульти-GPU и улучшение промта с помощью Qwen (локально или и по API хаггинга). Как и Хуньянь модель может генерить и просто картинки. Но Wan ещё и умеет в английский/китайский текст на видео. Плюс у Wan нет цензуры и коммерческая лицензия, а значит притяжение сообщества будет.
Wan может генерить видео как по тексту, так и картинкам в разрешении от 480p до 720p. Позже говорят подъедет 1080p.
Text-2-video (T2V) моделей две: размером 1.3B и 14B. Вариант 1.3B потребляет 8 ГБ VRAM и 5 секундное видео в 480p на 4090 будет генерить 4 минуты. Правда выходные результаты для 2025 года будут смотреться так себе. Модель размером 14B уместится в 24 ГБ, если сделать разрешение в районе 400х400, но там и будет сильная потеря в качестве, либо 720p с длительностью около секунды, что займет ~10 мин на генерацию и шумы всё равно будут.
Image-2-video (I2V) модели тоже две, каждая на свой вариант разрешения: 480p или 720p. При этом обе только размером 14B. Для генерации видео в 720p на основе картинки нужно 70 — 80 ГБ VRAM и на A100 это займёт ~4,5 минуты. Либо опять же понижать выходное разрешение/длительность и получать артефакты.
Будем наблюдать за i2v оптимизациями комьюнити для работы по максимуму на одном GPU. Официальный воркфлоу от Comfy уже подъехал, как и сборка от Kijai.
Гайд по запуску в SwarmUI.
Демо (сайт)
Демо (хаггинг)
Хаггинг
Гитхаб
Comfy воркфлоу
Kijai
This media is not supported in your browser
VIEW IN TELEGRAM
У меня сегодня День Рождения! Погладить можно в комментах.
В прошлом году собирали по 500+ руб на новый компьютер, и когда он появился, тем кто поблагодарил звонкой монетой я расшарил к нему доступ первыми.
В этом году тоже что-нибудь придумаем. Благо и мощности теперь есть, и нейронок годных море, и экосистема TON + телега развиваются.
На вискас:
RUB
https://www.tbank.ru/cf/9ffOB1eGiHd
TON
USDT (TON)
BTC
Будут вопросы пишите в личку @AndreyBezryadin
Всех обнял.
В прошлом году собирали по 500+ руб на новый компьютер, и когда он появился, тем кто поблагодарил звонкой монетой я расшарил к нему доступ первыми.
В этом году тоже что-нибудь придумаем. Благо и мощности теперь есть, и нейронок годных море, и экосистема TON + телега развиваются.
На вискас:
RUB
https://www.tbank.ru/cf/9ffOB1eGiHd
TON
UQDKuW_brZHYtCGb9Yl17i38Y655BmNsVNK5RRZdJOdCMi0O
USDT (TON)
UQD0q1tjEdosBXB4zv4R3yvO9ly45IzNTa41z3mOXjco5E9s
BTC
1KvDmbCbbmMqyF5XXteJhFYmp5hAm35y92
Будут вопросы пишите в личку @AndreyBezryadin
Всех обнял.
This media is not supported in your browser
VIEW IN TELEGRAM
Wonder Dynamics: представили Motion Prediction.
Это AI модель, которая предсказывает движения актёра в сцене там, где есть окклюзии, чтобы анимация не рвалась и продолжала выглядеть естественно.
Работает и там, где человек частично/полностью перекрыт объектом, и где он не полностью в кадре (например, при приближении к камере с общего плана на крупный).
Сайт
Твит
Это AI модель, которая предсказывает движения актёра в сцене там, где есть окклюзии, чтобы анимация не рвалась и продолжала выглядеть естественно.
Работает и там, где человек частично/полностью перекрыт объектом, и где он не полностью в кадре (например, при приближении к камере с общего плана на крупный).
Сайт
Твит
Flora: нодовый редактор, в котором есть возможность генерировать текст, картинки, и видео.
Можно улучшать промт, генерить сразу несколько вариаций одной кнопкой, совмещать выходы нод для комбинирования результатов, работать в команде, и не только.
Есть библиотека, из которой можно клонировать к себе любой публичный воркфлоу и переделать под свои нужды.
На халяву 2000 кредитов в месяц. На них дают погонять Flux Pro, Kling, Hailuo, Luma Photon + Dream Machine, Recraft V3, Pika, итд. Загрузка своих ассетов только на платных подписках от $16.
Сайт
Твит
Можно улучшать промт, генерить сразу несколько вариаций одной кнопкой, совмещать выходы нод для комбинирования результатов, работать в команде, и не только.
Есть библиотека, из которой можно клонировать к себе любой публичный воркфлоу и переделать под свои нужды.
На халяву 2000 кредитов в месяц. На них дают погонять Flux Pro, Kling, Hailuo, Luma Photon + Dream Machine, Recraft V3, Pika, итд. Загрузка своих ассетов только на платных подписках от $16.
Сайт
Твит
Runway: по-тихому выкатили фичу Restyle Video для смены стиля видео. Правда непонятно, чем это отличается от video-2-video функционала, доступного с сентября прошлого года. Видать потому без шума-гама и выпустили.
Твит
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Luma: выпустили Ray2 Flash, лайтовую версию своего основного видеогенератора Ray2. В честь этого даже проводят конкурс с призовым пулом $850.
Модель в 3 раза быстрее и 3 раза дешевле. Поход примерно такой же как в Runway Gen-3 Turbo или Pika Turbo.
На странице с ценами пока нет ничего про Flash. Но вот цены на базовую модель, и их можно делить на 3:
Ray2 720p: 5 сек: 160 кредитов, 10 сек: 320 кредитов
Ray2 1080p: 5 сек: 170 кредитов, 10 сек: 340 кредитов.
Опенсорс в лице Wan, нового img-2-vid Хуньяня, а также LTXV 0.9.5 давят на открытые/закрытые модели, вынуждая двигаться быстрее и предлагать продукт дешевле. Да и между самими перекрытыми битва прям только попкорном успевай закидываться. Те же Luma на днях завезли в Ray2 кейфреймы, расширение и зацикливание видео.
Кто-нибудь окликните гугл с его $0,5 за 1 сек в Veo 2. Это на Fal, видел дороже, но не дешевле.
Если делать срез по видеогенераторам (а качество и фичи у многих сейчас близки друг другу), какая цена за генерацию 1 сек видео вам кажется нормальной? Или какой подход к оценке вам ближе.
Твит
Сайт
Модель в 3 раза быстрее и 3 раза дешевле. Поход примерно такой же как в Runway Gen-3 Turbo или Pika Turbo.
На странице с ценами пока нет ничего про Flash. Но вот цены на базовую модель, и их можно делить на 3:
Ray2 720p: 5 сек: 160 кредитов, 10 сек: 320 кредитов
Ray2 1080p: 5 сек: 170 кредитов, 10 сек: 340 кредитов.
Опенсорс в лице Wan, нового img-2-vid Хуньяня, а также LTXV 0.9.5 давят на открытые/закрытые модели, вынуждая двигаться быстрее и предлагать продукт дешевле. Да и между самими перекрытыми битва прям только попкорном успевай закидываться. Те же Luma на днях завезли в Ray2 кейфреймы, расширение и зацикливание видео.
Кто-нибудь окликните гугл с его $0,5 за 1 сек в Veo 2. Это на Fal, видел дороже, но не дешевле.
Если делать срез по видеогенераторам (а качество и фичи у многих сейчас близки друг другу), какая цена за генерацию 1 сек видео вам кажется нормальной? Или какой подход к оценке вам ближе.
Твит
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
С 8 марта, дамы! Тепла и света вам в любой день календаря, а также заботливых объятий, об руку с которыми легко идти со страницы на страницу.
WAN + FlowEdit
Недавно тестили PikaSwap с его заменой объектов на видео. А тут уже опенсорс поджимает, а то и вовсе жмёт.
Пика пика?
Дискорд обсуждение воркфлоу
Комфи WAN
Демо FlowEdit
Гитхаб FlowEdit
Недавно тестили PikaSwap с его заменой объектов на видео. А тут уже опенсорс поджимает, а то и вовсе жмёт.
Пика пика?
Дискорд обсуждение воркфлоу
Комфи WAN
Демо FlowEdit
Гитхаб FlowEdit