Forwarded from %NeuroTemp%
Media is too big
VIEW IN TELEGRAM
The Laser Skoof
Скуф — мальчик в теле взрослого мужчины, утопающий в воспоминаниях о том, как мама покупала ему одежду на рынке, а вечерами он играл в денди.
Он пытается сбежать из игры, но реальность неизбежно тянет его обратно.
P.S. Бекстейдж в комментах
Скуф — мальчик в теле взрослого мужчины, утопающий в воспоминаниях о том, как мама покупала ему одежду на рынке, а вечерами он играл в денди.
Он пытается сбежать из игры, но реальность неизбежно тянет его обратно.
P.S. Бекстейдж в комментах
2
Пока я пеку дайджест, вот вам работа ещё одного подписчика @Omceone. А если ваша бабушка не читает газету "Жизнь", то у него на канале OmceOne prod. есть контент на музон Aphex Twin.
Telegram
OmceOne prod.
AI music & video, ах да, картиночки ещё
Forwarded from OmceOne prod.
Media is too big
VIEW IN TELEGRAM
Guf - Только не сегодня
Амбасадором этого видео ролика выступила #LumaLabs, #Kling на подсосе в виде липсинка и #Krea как основной источник материала🤙
#клипешник
Амбасадором этого видео ролика выступила #LumaLabs, #Kling на подсосе в виде липсинка и #Krea как основной источник материала
#клипешник
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Moonvalley: создатели этого видеогенератора подали признаки жизни и вышли с новой моделью — Marey.
Последняя новость от них была аж в 2023 году. Потом в 2024 они сообщили, что бесплатных генераций больше не будет, а через несколько месяцев закрыли и платные подписки, потому что им не хватает ресурсов.
Но выяснилось, что они сделали шаг назад, чтобы вернуться с моделью побольше. В Marey обещают работу в HD и разных форматах кадра, высокую детализацию, динамичную картинку и чёткое следования промту.
Качество пока судя по видео немного лучше Gen-2: артефакты, плохая динамика конечностей и объектов на фоне. Но может прокатить на анимации и стилизации. Заявляется, что натренировано всё на лицензированных данных. И это может являться как раз причиной отставания: ребятам не хватает данных. Похожая история с музыкальным проектом JEN, который натренирован только на лицензированной музыке, и качество значительно хуже конкурентов. Здесь китайская братва (Kling, Wan, и ко), которая берёт всё из интернета и никого не спрашивает — решает.
Но если Moonvalley сделают вменяемый ценник, и дадут много инструментов для контроля, — а у них на сайте написано layer-level editing, — то смогут привлечь, а то и удержать внимание.
Запись вейтлист у них на сайте.
Сайт
Последняя новость от них была аж в 2023 году. Потом в 2024 они сообщили, что бесплатных генераций больше не будет, а через несколько месяцев закрыли и платные подписки, потому что им не хватает ресурсов.
Но выяснилось, что они сделали шаг назад, чтобы вернуться с моделью побольше. В Marey обещают работу в HD и разных форматах кадра, высокую детализацию, динамичную картинку и чёткое следования промту.
Качество пока судя по видео немного лучше Gen-2: артефакты, плохая динамика конечностей и объектов на фоне. Но может прокатить на анимации и стилизации. Заявляется, что натренировано всё на лицензированных данных. И это может являться как раз причиной отставания: ребятам не хватает данных. Похожая история с музыкальным проектом JEN, который натренирован только на лицензированной музыке, и качество значительно хуже конкурентов. Здесь китайская братва (Kling, Wan, и ко), которая берёт всё из интернета и никого не спрашивает — решает.
Но если Moonvalley сделают вменяемый ценник, и дадут много инструментов для контроля, — а у них на сайте написано layer-level editing, — то смогут привлечь, а то и удержать внимание.
Запись вейтлист у них на сайте.
Сайт
7
Sparse VideoGen (SVG): метод ускорения генерации видео в два раза без видимой потери качества.
По замерам разрабов 5 секундный 720p видос из Хуньяня на H100 вместо 29 мин печётся 14 мин (хотя мне казалось оно по умолчанию столько и генерится). Только text-2-vid на данный момент для Хуни.
Сейчас работает с Хуньянем и CogVideo. Планируется поддержка Wan, и Cosmos.
Сайт
Гитхаб
По замерам разрабов 5 секундный 720p видос из Хуньяня на H100 вместо 29 мин печётся 14 мин (хотя мне казалось оно по умолчанию столько и генерится). Только text-2-vid на данный момент для Хуни.
Сейчас работает с Хуньянем и CogVideo. Планируется поддержка Wan, и Cosmos.
Сайт
Гитхаб
Open Sora: потратили $200k на прожарку GPU и испекли V2 своего опенсорсного видеогенератора.
Улучшилось качество картинки, следование промту, и динамичность. Последнее можно менять промтом.
Размер модели 11B, поддерживает разрешение от 256х до 768х. Оба варианта инпута, T2V и I2V, обрабатываются одной моделью (сохраним немного места на компе). По их тестам результаты между Хуньянем и StepFun, но у нас сейчас есть и Wan и SkyReels, так что гонка Open Sora на этом не закончена, могут начинать греть ещё $200к.
Тем более, что на H100 видос разрешением 256x256 генерится 60 сек и потребляет 52 ГБ VRAM, а 768x768 ваяется 1656 сек потребляя 60 ГБ VRAM. С поддержкой сообщества обрастёт оптимизациями, расширенным контролем, и лорами.
Сайт
Гитхаб
Хаггинг
Улучшилось качество картинки, следование промту, и динамичность. Последнее можно менять промтом.
Размер модели 11B, поддерживает разрешение от 256х до 768х. Оба варианта инпута, T2V и I2V, обрабатываются одной моделью (сохраним немного места на компе). По их тестам результаты между Хуньянем и StepFun, но у нас сейчас есть и Wan и SkyReels, так что гонка Open Sora на этом не закончена, могут начинать греть ещё $200к.
Тем более, что на H100 видос разрешением 256x256 генерится 60 сек и потребляет 52 ГБ VRAM, а 768x768 ваяется 1656 сек потребляя 60 ГБ VRAM. С поддержкой сообщества обрастёт оптимизациями, расширенным контролем, и лорами.
Сайт
Гитхаб
Хаггинг
Google: добавили в Gemini 2 Flash Experimental работу с картинками промтом. Можно, например, редактировать изображение текстом, или генерить истории со стабильными персонажами на иллюстрациях. Народ в твиттере красит мангу, релайтит фото, вписывает себя в другие локации, и т.д.
Также они выпустили визуальную языковую модель (VLM) Gemma 3, которая в данный момент позиционируется как сильнейшая из тех, что может влезть на один GPU (не считая рассуждающих моделей).
Размеры от 1B (для телефонов) до 27B (нужно 24+ ГБ VRAM). У 4B-27B моделей контекст 128к (можно кормить вагон сканов, графиков, итд), у 1B он 32к и ей нельзя кормить картинки. Русский поддерживает.
Демо (Gemini)
Анонс
Демо (Gemma 3)
Анонс
Хаггинг
Также они выпустили визуальную языковую модель (VLM) Gemma 3, которая в данный момент позиционируется как сильнейшая из тех, что может влезть на один GPU (не считая рассуждающих моделей).
Размеры от 1B (для телефонов) до 27B (нужно 24+ ГБ VRAM). У 4B-27B моделей контекст 128к (можно кормить вагон сканов, графиков, итд), у 1B он 32к и ей нельзя кормить картинки. Русский поддерживает.
Демо (Gemini)
Анонс
Демо (Gemma 3)
Анонс
Хаггинг
1
This media is not supported in your browser
VIEW IN TELEGRAM
Гоняем Wan на динамику.
Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.
Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!
Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.
Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!
Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
Пока мы танцуем вокруг Вана.
На реддите обсуждют метод улучшения качества генерируемых видосов, используя skip layer guidance. Слово топикстартеру:
Сегодня данный коммит уже смержен с Wan2GP (GPU Poor). Kijai в свою Comfy-Wan сборку тоже добавил (спс @p0lygon). Погонять предлагается скриптом:
Реддит
Гитхаб Wan2GP
Comfy-Wan (Kijai)
На реддите обсуждют метод улучшения качества генерируемых видосов, используя skip layer guidance. Слово топикстартеру:
Skip layer(s) on unconditional video denoising
video = conditional - unconditional
Worse unconditional means better video
Сегодня данный коммит уже смержен с Wan2GP (GPU Poor). Kijai в свою Comfy-Wan сборку тоже добавил (спс @p0lygon). Погонять предлагается скриптом:
python i2v_inference.py \
--prompt "Woman running through a field" \
--input-image "pexels_test.jpg" \
--resolution "720x1280" \
--flow-shift 3.0 \
--frames 81 \
--guidance-scale 5.0 \
--steps 30 \
--attention "sage2" \
--compile \
--teacache 0.25 \
--transformer-file="ckpts/wan2.1_image2video_720p_14B_quanto_int8.safetensors" \
--slg-layers="9" \
--teacache-start 0.1 \
--profile 2 \
--seed 980123558 \
--output-file="output_slg_9.mp4"
Реддит
Гитхаб Wan2GP
Comfy-Wan (Kijai)
This media is not supported in your browser
VIEW IN TELEGRAM
PlayCanvas: обновили SuperSplat, инструмент для просмотра и редактирования сплатов.
Что нового:
* Можно рендерить пролёты камеры
* Прогрессбар для контроля воспроизведения интерактивного видео: в любой момент можно остановиться и покрутить камеру, или начать свободно ей летать. А также просто быстро проматывать вперед/назад, или сбросить всё нажав Reset.
* Комменты под сплатами
Эксплорер
Редактор
Анонс
Что нового:
* Можно рендерить пролёты камеры
* Прогрессбар для контроля воспроизведения интерактивного видео: в любой момент можно остановиться и покрутить камеру, или начать свободно ей летать. А также просто быстро проматывать вперед/назад, или сбросить всё нажав Reset.
* Комменты под сплатами
Эксплорер
Редактор
Анонс
KV-Edit: редактирование изображений с сохранением фона, через маску и промт.
Работает без доп трени. Решает задачи добавления объектов, их изменения, удаления, или перемещения.
Фон сохраняется за счёт кэша, в котором хранятся токены бэкграунда и вместо их перегенерации добавляются к фронту во время денойза.
Под капотом Flux, рекомендуется 3090/4090. Есть Comfy, а также онлайн демо.
Альтернативно можно глянуть Flux Tools, или MagicQuill, например.
Сайт
Демо
Comfy
Гитхаб
Работает без доп трени. Решает задачи добавления объектов, их изменения, удаления, или перемещения.
Фон сохраняется за счёт кэша, в котором хранятся токены бэкграунда и вместо их перегенерации добавляются к фронту во время денойза.
Под капотом Flux, рекомендуется 3090/4090. Есть Comfy, а также онлайн демо.
Альтернативно можно глянуть Flux Tools, или MagicQuill, например.
Сайт
Демо
Comfy
Гитхаб