Forwarded from OmceOne prod.
Media is too big
VIEW IN TELEGRAM
Guf - Только не сегодня
Амбасадором этого видео ролика выступила #LumaLabs, #Kling на подсосе в виде липсинка и #Krea как основной источник материала🤙
#клипешник
Амбасадором этого видео ролика выступила #LumaLabs, #Kling на подсосе в виде липсинка и #Krea как основной источник материала
#клипешник
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Moonvalley: создатели этого видеогенератора подали признаки жизни и вышли с новой моделью — Marey.
Последняя новость от них была аж в 2023 году. Потом в 2024 они сообщили, что бесплатных генераций больше не будет, а через несколько месяцев закрыли и платные подписки, потому что им не хватает ресурсов.
Но выяснилось, что они сделали шаг назад, чтобы вернуться с моделью побольше. В Marey обещают работу в HD и разных форматах кадра, высокую детализацию, динамичную картинку и чёткое следования промту.
Качество пока судя по видео немного лучше Gen-2: артефакты, плохая динамика конечностей и объектов на фоне. Но может прокатить на анимации и стилизации. Заявляется, что натренировано всё на лицензированных данных. И это может являться как раз причиной отставания: ребятам не хватает данных. Похожая история с музыкальным проектом JEN, который натренирован только на лицензированной музыке, и качество значительно хуже конкурентов. Здесь китайская братва (Kling, Wan, и ко), которая берёт всё из интернета и никого не спрашивает — решает.
Но если Moonvalley сделают вменяемый ценник, и дадут много инструментов для контроля, — а у них на сайте написано layer-level editing, — то смогут привлечь, а то и удержать внимание.
Запись вейтлист у них на сайте.
Сайт
Последняя новость от них была аж в 2023 году. Потом в 2024 они сообщили, что бесплатных генераций больше не будет, а через несколько месяцев закрыли и платные подписки, потому что им не хватает ресурсов.
Но выяснилось, что они сделали шаг назад, чтобы вернуться с моделью побольше. В Marey обещают работу в HD и разных форматах кадра, высокую детализацию, динамичную картинку и чёткое следования промту.
Качество пока судя по видео немного лучше Gen-2: артефакты, плохая динамика конечностей и объектов на фоне. Но может прокатить на анимации и стилизации. Заявляется, что натренировано всё на лицензированных данных. И это может являться как раз причиной отставания: ребятам не хватает данных. Похожая история с музыкальным проектом JEN, который натренирован только на лицензированной музыке, и качество значительно хуже конкурентов. Здесь китайская братва (Kling, Wan, и ко), которая берёт всё из интернета и никого не спрашивает — решает.
Но если Moonvalley сделают вменяемый ценник, и дадут много инструментов для контроля, — а у них на сайте написано layer-level editing, — то смогут привлечь, а то и удержать внимание.
Запись вейтлист у них на сайте.
Сайт
7
Sparse VideoGen (SVG): метод ускорения генерации видео в два раза без видимой потери качества.
По замерам разрабов 5 секундный 720p видос из Хуньяня на H100 вместо 29 мин печётся 14 мин (хотя мне казалось оно по умолчанию столько и генерится). Только text-2-vid на данный момент для Хуни.
Сейчас работает с Хуньянем и CogVideo. Планируется поддержка Wan, и Cosmos.
Сайт
Гитхаб
По замерам разрабов 5 секундный 720p видос из Хуньяня на H100 вместо 29 мин печётся 14 мин (хотя мне казалось оно по умолчанию столько и генерится). Только text-2-vid на данный момент для Хуни.
Сейчас работает с Хуньянем и CogVideo. Планируется поддержка Wan, и Cosmos.
Сайт
Гитхаб
Open Sora: потратили $200k на прожарку GPU и испекли V2 своего опенсорсного видеогенератора.
Улучшилось качество картинки, следование промту, и динамичность. Последнее можно менять промтом.
Размер модели 11B, поддерживает разрешение от 256х до 768х. Оба варианта инпута, T2V и I2V, обрабатываются одной моделью (сохраним немного места на компе). По их тестам результаты между Хуньянем и StepFun, но у нас сейчас есть и Wan и SkyReels, так что гонка Open Sora на этом не закончена, могут начинать греть ещё $200к.
Тем более, что на H100 видос разрешением 256x256 генерится 60 сек и потребляет 52 ГБ VRAM, а 768x768 ваяется 1656 сек потребляя 60 ГБ VRAM. С поддержкой сообщества обрастёт оптимизациями, расширенным контролем, и лорами.
Сайт
Гитхаб
Хаггинг
Улучшилось качество картинки, следование промту, и динамичность. Последнее можно менять промтом.
Размер модели 11B, поддерживает разрешение от 256х до 768х. Оба варианта инпута, T2V и I2V, обрабатываются одной моделью (сохраним немного места на компе). По их тестам результаты между Хуньянем и StepFun, но у нас сейчас есть и Wan и SkyReels, так что гонка Open Sora на этом не закончена, могут начинать греть ещё $200к.
Тем более, что на H100 видос разрешением 256x256 генерится 60 сек и потребляет 52 ГБ VRAM, а 768x768 ваяется 1656 сек потребляя 60 ГБ VRAM. С поддержкой сообщества обрастёт оптимизациями, расширенным контролем, и лорами.
Сайт
Гитхаб
Хаггинг
Google: добавили в Gemini 2 Flash Experimental работу с картинками промтом. Можно, например, редактировать изображение текстом, или генерить истории со стабильными персонажами на иллюстрациях. Народ в твиттере красит мангу, релайтит фото, вписывает себя в другие локации, и т.д.
Также они выпустили визуальную языковую модель (VLM) Gemma 3, которая в данный момент позиционируется как сильнейшая из тех, что может влезть на один GPU (не считая рассуждающих моделей).
Размеры от 1B (для телефонов) до 27B (нужно 24+ ГБ VRAM). У 4B-27B моделей контекст 128к (можно кормить вагон сканов, графиков, итд), у 1B он 32к и ей нельзя кормить картинки. Русский поддерживает.
Демо (Gemini)
Анонс
Демо (Gemma 3)
Анонс
Хаггинг
Также они выпустили визуальную языковую модель (VLM) Gemma 3, которая в данный момент позиционируется как сильнейшая из тех, что может влезть на один GPU (не считая рассуждающих моделей).
Размеры от 1B (для телефонов) до 27B (нужно 24+ ГБ VRAM). У 4B-27B моделей контекст 128к (можно кормить вагон сканов, графиков, итд), у 1B он 32к и ей нельзя кормить картинки. Русский поддерживает.
Демо (Gemini)
Анонс
Демо (Gemma 3)
Анонс
Хаггинг
1
This media is not supported in your browser
VIEW IN TELEGRAM
Гоняем Wan на динамику.
Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.
Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!
Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.
Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!
Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
Пока мы танцуем вокруг Вана.
На реддите обсуждют метод улучшения качества генерируемых видосов, используя skip layer guidance. Слово топикстартеру:
Сегодня данный коммит уже смержен с Wan2GP (GPU Poor). Kijai в свою Comfy-Wan сборку тоже добавил (спс @p0lygon). Погонять предлагается скриптом:
Реддит
Гитхаб Wan2GP
Comfy-Wan (Kijai)
На реддите обсуждют метод улучшения качества генерируемых видосов, используя skip layer guidance. Слово топикстартеру:
Skip layer(s) on unconditional video denoising
video = conditional - unconditional
Worse unconditional means better video
Сегодня данный коммит уже смержен с Wan2GP (GPU Poor). Kijai в свою Comfy-Wan сборку тоже добавил (спс @p0lygon). Погонять предлагается скриптом:
python i2v_inference.py \
--prompt "Woman running through a field" \
--input-image "pexels_test.jpg" \
--resolution "720x1280" \
--flow-shift 3.0 \
--frames 81 \
--guidance-scale 5.0 \
--steps 30 \
--attention "sage2" \
--compile \
--teacache 0.25 \
--transformer-file="ckpts/wan2.1_image2video_720p_14B_quanto_int8.safetensors" \
--slg-layers="9" \
--teacache-start 0.1 \
--profile 2 \
--seed 980123558 \
--output-file="output_slg_9.mp4"
Реддит
Гитхаб Wan2GP
Comfy-Wan (Kijai)
This media is not supported in your browser
VIEW IN TELEGRAM
PlayCanvas: обновили SuperSplat, инструмент для просмотра и редактирования сплатов.
Что нового:
* Можно рендерить пролёты камеры
* Прогрессбар для контроля воспроизведения интерактивного видео: в любой момент можно остановиться и покрутить камеру, или начать свободно ей летать. А также просто быстро проматывать вперед/назад, или сбросить всё нажав Reset.
* Комменты под сплатами
Эксплорер
Редактор
Анонс
Что нового:
* Можно рендерить пролёты камеры
* Прогрессбар для контроля воспроизведения интерактивного видео: в любой момент можно остановиться и покрутить камеру, или начать свободно ей летать. А также просто быстро проматывать вперед/назад, или сбросить всё нажав Reset.
* Комменты под сплатами
Эксплорер
Редактор
Анонс
KV-Edit: редактирование изображений с сохранением фона, через маску и промт.
Работает без доп трени. Решает задачи добавления объектов, их изменения, удаления, или перемещения.
Фон сохраняется за счёт кэша, в котором хранятся токены бэкграунда и вместо их перегенерации добавляются к фронту во время денойза.
Под капотом Flux, рекомендуется 3090/4090. Есть Comfy, а также онлайн демо.
Альтернативно можно глянуть Flux Tools, или MagicQuill, например.
Сайт
Демо
Comfy
Гитхаб
Работает без доп трени. Решает задачи добавления объектов, их изменения, удаления, или перемещения.
Фон сохраняется за счёт кэша, в котором хранятся токены бэкграунда и вместо их перегенерации добавляются к фронту во время денойза.
Под капотом Flux, рекомендуется 3090/4090. Есть Comfy, а также онлайн демо.
Альтернативно можно глянуть Flux Tools, или MagicQuill, например.
Сайт
Демо
Comfy
Гитхаб
Дайджест:
📹 ВИДЕО + АРТ 🎨
CivitAI: запустили новую программу вознаграждения авторов с отчислениями из ежемесячного пула наград.
Wan: видеогенератор обзавёлся официальным промт гайдом и оптимизированной GP (GPU Poor) версией для запуска на видюхах от 5 ГБ до 24 ГБ. Альтернативно на сайте 50 кредитов на 5 генов. Kijai подрубил сдвигающееся контекстное окно, что позволяет увеличить длительность генерируемого видео. Сообщество начало печь лоры на де-блюр, пика эффекты, итд. Comfy // Kijai // Pinokio
Хуньянь: выпустили img-2-vid модель (i2v) для генерации видео. Причём уже даже успели обновить тренировочный код i2v и саму модель, ибо в начальном релизе была проблема со стабильностью персоналий (перекачайте, если что). Поддерживается вывод до 720p длиной в 129 кадров (5 сек), на это понадобится 60 ГБ VRAM. Есть low vram версия. Код для тренировки лор тоже выложен. Comfy // Kijai // Pinokio.
Lightricks: релизнули видеогенератор LTXV 0.9.5. Выше разрешение и лучше качество в динамичных сценах, контроль по нескольким кейфреймам, vid-2-vid редактирование, расширение видео, интерполяция между кадров, коммерческая лицензия. Comfy. Онлайн демо.
Comfy: добавили поддержку Wan (в том числе fp16 и fp8_scaled весов, показывающих качество лучше bf16), LTXV 0.9.5, img-2-vid Хуньяня (включая "исправленную" V2). Анонс // Гитхаб
HuggingFace: представили способ декодировать VAE на удалённой машине, чтобы разгрузить ресурсы своего железа. При этом сохраняется приватность: модель, воркфлоу, выходные генерации, располагаются локально, а на удалённом компе идёт только декод. Уже успели оптимизировать всё для ускорения ещё в 10 раз (Flux, SD). Kijai ноды // Сравнение VAE.
Pika: добавили эффекты для превращения в ребёнка, героя, принцессу, или музейный экспонат. Pikaswaps и Pikadditions теперь генерят в 1080p.
Zluda: CUDA для видюх AMD теперь работает с PyTorch Flash Attention 2, а также cuDNN.
DSD: персонализация и релайтинг изображений для получения стабильных персонажей и брендинга с использованием Flux под капотом. Метод схожий с DreamBooth, но работает в zero shot и без трени.
SkyReels: добавили липсинк к своему генератору видео. Есть демо.
Fast3R: быстрая реконструкция 3D из видео/1000+ фото. Вполне возможно пойдёт под капот в PostShot и иже с ними.
Pe3R: создание 3D сцены на основе 2-3 фото для поиска текстом объектов на ней.
...сначала DUSt3R, потом Fast3R, теперь Pe3R... соб3Rи их всех!
FLARE: получение новых видов сцены или её 3D геометрии из несшитых рандомных фоток.
TrajectoryCrafter: управление камерой для смены ракурса в видео.
THDUM: выпустили генератор картинок CogView4 с хорошим следованием промту, но говорят есть проблемы с анатомией.
Tencent: релизнули VideoPainter для инпейтинга объектов в видео. Похоже на ProPainter, но с большим количеством возможностей. Ещё стоит на эту тему глянуть FlowEdit.
CTRL-D: тоже редактирование видео, но уже промтом.
Wonder Dynamics: поделились тем, как их технология AI motion capture использовалась в съёмках нового сезона Superman & Lois.
RadiantFoam: рейтрейсинг для сплатов.
Ideogram: выпустили Ideogram 2a и версию Turbo, для более быстрой и дешевой генерации картинок. Также улучшились тексты на них.
BlenderMCP: генерация 3D контента в Blender через команды Claude.
Light-a-Video: для релайтера видео появилось Comfy и демо.
Tight Inversion: редактирование картинок промтом.
📹 ВИДЕО + АРТ 🎨
CivitAI: запустили новую программу вознаграждения авторов с отчислениями из ежемесячного пула наград.
Wan: видеогенератор обзавёлся официальным промт гайдом и оптимизированной GP (GPU Poor) версией для запуска на видюхах от 5 ГБ до 24 ГБ. Альтернативно на сайте 50 кредитов на 5 генов. Kijai подрубил сдвигающееся контекстное окно, что позволяет увеличить длительность генерируемого видео. Сообщество начало печь лоры на де-блюр, пика эффекты, итд. Comfy // Kijai // Pinokio
Хуньянь: выпустили img-2-vid модель (i2v) для генерации видео. Причём уже даже успели обновить тренировочный код i2v и саму модель, ибо в начальном релизе была проблема со стабильностью персоналий (перекачайте, если что). Поддерживается вывод до 720p длиной в 129 кадров (5 сек), на это понадобится 60 ГБ VRAM. Есть low vram версия. Код для тренировки лор тоже выложен. Comfy // Kijai // Pinokio.
Lightricks: релизнули видеогенератор LTXV 0.9.5. Выше разрешение и лучше качество в динамичных сценах, контроль по нескольким кейфреймам, vid-2-vid редактирование, расширение видео, интерполяция между кадров, коммерческая лицензия. Comfy. Онлайн демо.
Comfy: добавили поддержку Wan (в том числе fp16 и fp8_scaled весов, показывающих качество лучше bf16), LTXV 0.9.5, img-2-vid Хуньяня (включая "исправленную" V2). Анонс // Гитхаб
HuggingFace: представили способ декодировать VAE на удалённой машине, чтобы разгрузить ресурсы своего железа. При этом сохраняется приватность: модель, воркфлоу, выходные генерации, располагаются локально, а на удалённом компе идёт только декод. Уже успели оптимизировать всё для ускорения ещё в 10 раз (Flux, SD). Kijai ноды // Сравнение VAE.
Pika: добавили эффекты для превращения в ребёнка, героя, принцессу, или музейный экспонат. Pikaswaps и Pikadditions теперь генерят в 1080p.
Zluda: CUDA для видюх AMD теперь работает с PyTorch Flash Attention 2, а также cuDNN.
DSD: персонализация и релайтинг изображений для получения стабильных персонажей и брендинга с использованием Flux под капотом. Метод схожий с DreamBooth, но работает в zero shot и без трени.
SkyReels: добавили липсинк к своему генератору видео. Есть демо.
Fast3R: быстрая реконструкция 3D из видео/1000+ фото. Вполне возможно пойдёт под капот в PostShot и иже с ними.
Pe3R: создание 3D сцены на основе 2-3 фото для поиска текстом объектов на ней.
...сначала DUSt3R, потом Fast3R, теперь Pe3R... соб3Rи их всех!
FLARE: получение новых видов сцены или её 3D геометрии из несшитых рандомных фоток.
TrajectoryCrafter: управление камерой для смены ракурса в видео.
THDUM: выпустили генератор картинок CogView4 с хорошим следованием промту, но говорят есть проблемы с анатомией.
Tencent: релизнули VideoPainter для инпейтинга объектов в видео. Похоже на ProPainter, но с большим количеством возможностей. Ещё стоит на эту тему глянуть FlowEdit.
CTRL-D: тоже редактирование видео, но уже промтом.
Wonder Dynamics: поделились тем, как их технология AI motion capture использовалась в съёмках нового сезона Superman & Lois.
RadiantFoam: рейтрейсинг для сплатов.
Ideogram: выпустили Ideogram 2a и версию Turbo, для более быстрой и дешевой генерации картинок. Также улучшились тексты на них.
BlenderMCP: генерация 3D контента в Blender через команды Claude.
Light-a-Video: для релайтера видео появилось Comfy и демо.
Tight Inversion: редактирование картинок промтом.
2