Psy Eyes

0:18

Sparse VideoGen (SVG): метод ускорения генерации видео в два раза без видимой потери качества.

По замерам разрабов 5 секундный 720p видос из Хуньяня на H100 вместо 29 мин печётся 14 мин (хотя мне казалось оно по умолчанию столько и генерится). Только text-2-vid на данный момент для Хуни.

Сейчас работает с Хуньянем и CogVideo. Планируется поддержка Wan, и Cosmos.

Сайт
Гитхаб

1.82K views10:47

0:06

0:04

Open Sora: потратили $200k на прожарку GPU и испекли V2 своего опенсорсного видеогенератора.

Улучшилось качество картинки, следование промту, и динамичность. Последнее можно менять промтом.

Размер модели 11B, поддерживает разрешение от 256х до 768х. Оба варианта инпута, T2V и I2V, обрабатываются одной моделью (сохраним немного места на компе). По их тестам результаты между Хуньянем и StepFun, но у нас сейчас есть и Wan и SkyReels, так что гонка Open Sora на этом не закончена, могут начинать греть ещё $200к.

Тем более, что на H100 видос разрешением 256x256 генерится 60 сек и потребляет 52 ГБ VRAM, а 768x768 ваяется 1656 сек потребляя 60 ГБ VRAM. С поддержкой сообщества обрастёт оптимизациями, расширенным контролем, и лорами.

Сайт
Гитхаб
Хаггинг

1.78K views11:38

Релиз Runway Gen-3 был в середине прошлого года, так-то. Пора бы уже.

1.55K views12:01

Google: добавили в Gemini 2 Flash Experimental работу с картинками промтом. Можно, например, редактировать изображение текстом, или генерить истории со стабильными персонажами на иллюстрациях. Народ в твиттере красит мангу, релайтит фото, вписывает себя в другие локации, и т.д.

Также они выпустили визуальную языковую модель (VLM) Gemma 3, которая в данный момент позиционируется как сильнейшая из тех, что может влезть на один GPU (не считая рассуждающих моделей).

Размеры от 1B (для телефонов) до 27B (нужно 24+ ГБ VRAM). У 4B-27B моделей контекст 128к (можно кормить вагон сканов, графиков, итд), у 1B он 32к и ей нельзя кормить картинки. Русский поддерживает.

Демо (Gemini)
Анонс
Демо (Gemma 3)
Анонс
Хаггинг

1.8K views13:19

0:08

Гоняем Wan на динамику.

Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.

Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!

Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд

8.86K viewsedited 10:50

0:05

0:05

Пока мы танцуем вокруг Вана.

На реддите обсуждют метод улучшения качества генерируемых видосов, используя skip layer guidance. Слово топикстартеру:

Skip layer(s) on unconditional video denoising

video = conditional - unconditional

Worse unconditional means better video

Сегодня данный коммит уже смержен с Wan2GP (GPU Poor). Kijai в свою Comfy-Wan сборку тоже добавил (спс @p0lygon). Погонять предлагается скриптом:

  python i2v_inference.py \
    --prompt "Woman running through a field" \
    --input-image "pexels_test.jpg" \
    --resolution "720x1280" \
    --flow-shift 3.0 \
    --frames 81 \
    --guidance-scale 5.0 \
    --steps 30 \
    --attention "sage2" \
    --compile \
    --teacache 0.25 \
    --transformer-file="ckpts/wan2.1_image2video_720p_14B_quanto_int8.safetensors" \
    --slg-layers="9" \
    --teacache-start 0.1 \
    --profile 2 \
    --seed 980123558 \
    --output-file="output_slg_9.mp4"

Реддит
Гитхаб Wan2GP
Comfy-Wan (Kijai)

1.75K views11:50

0:34

PlayCanvas: обновили SuperSplat, инструмент для просмотра и редактирования сплатов.

Что нового:
* Можно рендерить пролёты камеры
* Прогрессбар для контроля воспроизведения интерактивного видео: в любой момент можно остановиться и покрутить камеру, или начать свободно ей летать. А также просто быстро проматывать вперед/назад, или сбросить всё нажав Reset.
* Комменты под сплатами

Эксплорер
Редактор
Анонс

1.73K viewsedited 13:39

KV-Edit: редактирование изображений с сохранением фона, через маску и промт.

Работает без доп трени. Решает задачи добавления объектов, их изменения, удаления, или перемещения.

Фон сохраняется за счёт кэша, в котором хранятся токены бэкграунда и вместо их перегенерации добавляются к фронту во время денойза.

Под капотом Flux, рекомендуется 3090/4090. Есть Comfy, а также онлайн демо.

Альтернативно можно глянуть Flux Tools, или MagicQuill, например.

Сайт
Демо
Comfy
Гитхаб

1.83K views14:50

Красные есть в здании?

Stability: тихо выпустили версии Stable Diffusion, начиная с SDXL до SD 3.5-Large, адаптированные под видюхи AMD.

Гонять надо через предоставляемый ими интерфейс Amuse.

Хаггинг

10K views16:04

1.43K views11:45