Psy Eyes
5.28K subscribers
1.05K photos
1.04K videos
5 files
1.22K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Братишка, я тебе пожрать принёс
Alibaba: выпустили опенсорсный видеогенератор Wan 2.1 в размерах от 1.3B до 14B.

Следование промту хорошее, в том числе и на динамичных сценах. Качество сильно скачет: где-то оно годное, чем ближе промт к датасету и выше разрешение, но зачастую всё плывёт и очень шумное, либо покрывается артефактами. Особенно, если разрешение ниже значений, на которые модель заточена.

Если сравнивать с недавними Skyreels и Stepfun, то они более детальную стабильную картинку выдают, но их и завезти ввиду размеров тоже не просто. В том же Хуньяне сгенерить искомое получалось значительно быстрее с более качественным изображением.

Есть поддержка мульти-GPU и улучшение промта с помощью Qwen (локально или и по API хаггинга). Как и Хуньянь модель может генерить и просто картинки. Но Wan ещё и умеет в английский/китайский текст на видео. Плюс у Wan нет цензуры и коммерческая лицензия, а значит притяжение сообщества будет.

Wan может генерить видео как по тексту, так и картинкам в разрешении от 480p до 720p. Позже говорят подъедет 1080p.

Text-2-video (T2V) моделей две: размером 1.3B и 14B. Вариант 1.3B потребляет 8 ГБ VRAM и 5 секундное видео в 480p на 4090 будет генерить 4 минуты. Правда выходные результаты для 2025 года будут смотреться так себе. Модель размером 14B уместится в 24 ГБ, если сделать разрешение в районе 400х400, но там и будет сильная потеря в качестве, либо 720p с длительностью около секунды, что займет ~10 мин на генерацию и шумы всё равно будут.

Image-2-video (I2V) модели тоже две, каждая на свой вариант разрешения: 480p или 720p. При этом обе только размером 14B. Для генерации видео в 720p на основе картинки нужно 70 — 80 ГБ VRAM и на A100 это займёт ~4,5 минуты. Либо опять же понижать выходное разрешение/длительность и получать артефакты.

Будем наблюдать за i2v оптимизациями комьюнити для работы по максимуму на одном GPU. Официальный воркфлоу от Comfy уже подъехал, как и сборка от Kijai.

Гайд по запуску в SwarmUI.

Демо (сайт)
Демо (хаггинг)
Хаггинг
Гитхаб
Comfy воркфлоу
Kijai
Тем временем Хуньянь получает всё больше оптимизаций и в нём уже можно вместо 4 сек видео сгенерить 10 сек 720p на 4090. В настройки запихнули Sage Attention, Tea Cache, и другой фарш, чтобы оно могло запускаться и на менее производительном железе, если поиграться с настройками.

Гитхаб
Pinokio
This media is not supported in your browser
VIEW IN TELEGRAM
У меня сегодня День Рождения! Погладить можно в комментах.

В прошлом году собирали по 500+ руб на новый компьютер, и когда он появился, тем кто поблагодарил звонкой монетой я расшарил к нему доступ первыми.

В этом году тоже что-нибудь придумаем. Благо и мощности теперь есть, и нейронок годных море, и экосистема TON + телега развиваются.

На вискас:

RUB
https://www.tbank.ru/cf/9ffOB1eGiHd

TON
UQDKuW_brZHYtCGb9Yl17i38Y655BmNsVNK5RRZdJOdCMi0O


USDT (TON)
UQD0q1tjEdosBXB4zv4R3yvO9ly45IzNTa41z3mOXjco5E9s


BTC
1KvDmbCbbmMqyF5XXteJhFYmp5hAm35y92


Будут вопросы пишите в личку @AndreyBezryadin

Всех обнял.
Pika: обновили свой видеогенератор до V 2.2.

Что нового:
* 10 сек генерации
* 1080p видео
* Контроль кадра через кейфреймы

Сайт
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Wonder Dynamics: представили Motion Prediction.

Это AI модель, которая предсказывает движения актёра в сцене там, где есть окклюзии, чтобы анимация не рвалась и продолжала выглядеть естественно.

Работает и там, где человек частично/полностью перекрыт объектом, и где он не полностью в кадре (например, при приближении к камере с общего плана на крупный).

Сайт
Твит
Flora: нодовый редактор, в котором есть возможность генерировать текст, картинки, и видео.

Можно улучшать промт, генерить сразу несколько вариаций одной кнопкой, совмещать выходы нод для комбинирования результатов, работать в команде, и не только.

Есть библиотека, из которой можно клонировать к себе любой публичный воркфлоу и переделать под свои нужды.

На халяву 2000 кредитов в месяц. На них дают погонять Flux Pro, Kling, Hailuo, Luma Photon + Dream Machine, Recraft V3, Pika, итд. Загрузка своих ассетов только на платных подписках от $16.

Сайт
Твит
Runway: по-тихому выкатили фичу Restyle Video для смены стиля видео. Правда непонятно, чем это отличается от video-2-video функционала, доступного с сентября прошлого года. Видать потому без шума-гама и выпустили.

Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Luma: выпустили Ray2 Flash, лайтовую версию своего основного видеогенератора Ray2. В честь этого даже проводят конкурс с призовым пулом $850.

Модель в 3 раза быстрее и 3 раза дешевле. Поход примерно такой же как в Runway Gen-3 Turbo или Pika Turbo.

На странице с ценами пока нет ничего про Flash. Но вот цены на базовую модель, и их можно делить на 3:

Ray2 720p: 5 сек: 160 кредитов, 10 сек: 320 кредитов
Ray2 1080p: 5 сек: 170 кредитов, 10 сек: 340 кредитов.

Опенсорс в лице Wan, нового img-2-vid Хуньяня, а также LTXV 0.9.5 давят на открытые/закрытые модели, вынуждая двигаться быстрее и предлагать продукт дешевле. Да и между самими перекрытыми битва прям только попкорном успевай закидываться. Те же Luma на днях завезли в Ray2 кейфреймы, расширение и зацикливание видео.

Кто-нибудь окликните гугл с его $0,5 за 1 сек в Veo 2. Это на Fal, видел дороже, но не дешевле.

Если делать срез по видеогенераторам (а качество и фичи у многих сейчас близки друг другу), какая цена за генерацию 1 сек видео вам кажется нормальной? Или какой подход к оценке вам ближе.

Твит
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
С 8 марта, дамы! Тепла и света вам в любой день календаря, а также заботливых объятий, об руку с которыми легко идти со страницы на страницу.
WAN + FlowEdit

Недавно тестили PikaSwap с его заменой объектов на видео. А тут уже опенсорс поджимает, а то и вовсе жмёт.

Пика пика?

Дискорд обсуждение воркфлоу
Комфи WAN
Демо FlowEdit
Гитхаб FlowEdit