Media is too big
VIEW IN TELEGRAM
Upscale видео прямо в Krea.ai
Если вы пропустили, то в Krea Enhancer завезли сам Topaz. Можно разгонять до 8К и 120FPS.
@cgevent
Если вы пропустили, то в Krea Enhancer завезли сам Topaz. Можно разгонять до 8К и 120FPS.
@cgevent
👍42🔥26😱4👎3❤2
Управление камерой для генерации картинок в chatGPT.
Получается такой одновременный отлет и outpaint картинки.
Промпт: Представь себе вид с дрона с высоты 200 метров, смотрящего прямо вниз. Подумайте, сколько деталей ты увидишь с такой высоты. А теперь напиши промпт, который четко описывает эту сцену, и создай изображение.
Imagine a drone view from 500 feet above, looking straight down. Think of all the details you'd see from that height. Now, write a prompt that describes this scene clearly and create an image.
Можете попробовать другие виды камер\ракурсов вместо drone view.
Тут забрал
@cgevent
Получается такой одновременный отлет и outpaint картинки.
Промпт: Представь себе вид с дрона с высоты 200 метров, смотрящего прямо вниз. Подумайте, сколько деталей ты увидишь с такой высоты. А теперь напиши промпт, который четко описывает эту сцену, и создай изображение.
Imagine a drone view from 500 feet above, looking straight down. Think of all the details you'd see from that height. Now, write a prompt that describes this scene clearly and create an image.
Можете попробовать другие виды камер\ракурсов вместо drone view.
Тут забрал
@cgevent
👍47❤16🔥9👎7
This media is not supported in your browser
VIEW IN TELEGRAM
Вы наверное не будете смеяться, но у нас новая видеоМодель.
Это HunyuanCustom - и это скорее огромный ControlNet поверх(спереди?) HunyuanVideo-13B.
Они постулируют, что полностью переделали модуль работы с текстом и токенами на базе LLaVa и сделали его мультимодальным, да, можно на вход подавать текст, картинки(много), видео, и даже звук:
Вuilt upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms.
По идее модель должна в разы лучше слушаться промпта и понимать ваши фантазии.
Как следствие нас ждут вот такие ништяки:
1️⃣Single-Subject Video: Upload an image + text (e.g., “He’s walking a dog”) to create coherent videos with new actions, outfits, and scenes.
2️⃣Multi-Subject Video: Generate videos with multiple subjects (e.g., a man drinking coffee in a cozy room) from separate image inputs.
3️⃣Audio-Driven Video: Sync audio with visuals for talking or singing in any scene—perfect for digital avatars, virtual customer service, and more.
4️⃣Video-Driven Video: Seamlessly insert or replace subjects into any video for creative enhancements.
Потестить сегодня не успеваю, но для алкающих скажу, что вам понадобиться 80GB VRAM для 720px1280px129f и 60GB для 512px896px129f. С чем вас и поздравляю. Говорят, что будет работать на 24GB, но ооочень медленно.
Наверное к понедельнику уже появятся пожатые веса и магия от Киджая.
Код есть (Линукс): https://github.com/Tencent/HunyuanCustom
Описание и проект: https://hunyuancustom.github.io/
А вот тут пожете попробовать попробовать: https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
Выбирайте регистрацию имейлом. И пишите в чат, что получилось.
(у меня уже полтора часа как "Задачи поставлены в очередь...")
@cgevent
Это HunyuanCustom - и это скорее огромный ControlNet поверх(спереди?) HunyuanVideo-13B.
Они постулируют, что полностью переделали модуль работы с текстом и токенами на базе LLaVa и сделали его мультимодальным, да, можно на вход подавать текст, картинки(много), видео, и даже звук:
Вuilt upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms.
По идее модель должна в разы лучше слушаться промпта и понимать ваши фантазии.
Как следствие нас ждут вот такие ништяки:
1️⃣Single-Subject Video: Upload an image + text (e.g., “He’s walking a dog”) to create coherent videos with new actions, outfits, and scenes.
2️⃣Multi-Subject Video: Generate videos with multiple subjects (e.g., a man drinking coffee in a cozy room) from separate image inputs.
3️⃣Audio-Driven Video: Sync audio with visuals for talking or singing in any scene—perfect for digital avatars, virtual customer service, and more.
4️⃣Video-Driven Video: Seamlessly insert or replace subjects into any video for creative enhancements.
Потестить сегодня не успеваю, но для алкающих скажу, что вам понадобиться 80GB VRAM для 720px1280px129f и 60GB для 512px896px129f. С чем вас и поздравляю. Говорят, что будет работать на 24GB, но ооочень медленно.
Наверное к понедельнику уже появятся пожатые веса и магия от Киджая.
Код есть (Линукс): https://github.com/Tencent/HunyuanCustom
Описание и проект: https://hunyuancustom.github.io/
А вот тут пожете попробовать попробовать: https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
Выбирайте регистрацию имейлом. И пишите в чат, что получилось.
(у меня уже полтора часа как "Задачи поставлены в очередь...")
@cgevent
5🔥22👍7😁5👎1
Хмм.. любопытно.. chatGPT как rendering-движок, понимающий материалы.
Похоже у него в мозгах есть понимание того, как устроены шейдеры (начитался интернетика).
Более того, вы можете попробовать попросить его самого написать шейдеры в формате JSON.
А потом дать ему любую картинку и сказать - перетекстурируй.
Я попробовал на фотках и генерациях, а вы попробуйте на скринах из Блендора. И своих материалах.
Получается chatRenderMan какой-то.
Промпт:
@cgevent
Похоже у него в мозгах есть понимание того, как устроены шейдеры (начитался интернетика).
Более того, вы можете попробовать попросить его самого написать шейдеры в формате JSON.
А потом дать ему любую картинку и сказать - перетекстурируй.
Я попробовал на фотках и генерациях, а вы попробуйте на скринах из Блендора. И своих материалах.
Получается chatRenderMan какой-то.
Промпт:
retexture the whole attached image based on the JSON aesthetic below
{
"style": "photorealistic 3D render",
"material": "glass with transparent and iridescent effects",
"surface_texture": "smooth, polished with subtle reflections and refractive effects",
"lighting": {
"type": "studio HDRI",
"intensity": "high",
"direction": "angled top-left key light and ambient fill",
"accent_colors": ["blue", "green", "purple"],
"reflections": true,
"refractions": true,
"dispersion_effects": true,
"bloom": true
},
"color_scheme": {
"primary": "transparent with iridescent blue, green, and purple hues",
"secondary": "crystal-clear with subtle chromatic shifts",
"highlights": "soft, glowing accents reflecting rainbow-like effects",
"rim_light": "soft reflective light around edges"
},
"background": {
"color": "black",
"vignette": true,
"texture": "none"
},
"post_processing": {
"chromatic_aberration": true,
"glow": true,
"high_contrast": true,
"sharp_details": true
}
}
@cgevent
🔥69❤26👍22👎1😁1
Media is too big
VIEW IN TELEGRAM
Vibe-coding be like
Главное - быть "в потоке" и верить, что на итоге все получится.
Главное - быть "в потоке" и верить, что на итоге все получится.
😁218🔥51👍21👎10❤9🙏2
Sketch2Anim: Нашел очень интересную работу с участием Снапчата.
Кода пока нет(кнопка на код есть), но работа оформлена и растолкована так хорошо, что грех ее не отметить.
Кроме того, замысел огненный.
Помните последние фишечки-рюшечкий от Krea Paint?
В принципе и в chatGPT можно присунуть коллаж с картинками и стрелками, показывающими чего куда вструмить, а в промпте написать общий замысел.
Но тут замысел идет сильно дальше - в анимацию. Те, кто в курсе про сториборды, аниматики и огурцы, оценят.
Рисуем стрелочками желаемое движение, и получаем, о чудо, 3Д-движение 3Д-болвана, то есть анимацию в 3Д.
Аниматоры сейчас взорут - это не анимация, это шевеляж.
Но это отдельная тема и тема о том, что было в обучающем датасете, сколько там Диснея, а сколько мокапа.
Но подумайте, что вообще происходит?!?! Этот стохастический попугай генерит 3Д-анимацию по одному кадру раскадровки со стрелочками.
Я в восторге. Но одна мысль не дает мне покоя: возможно конце года это можно будет делать в chatGPT\Gemini\Sora\Veo2\3 и далее по списку.
https://zhongleilz.github.io/Sketch2Anim/
@cgevent
Кода пока нет(кнопка на код есть), но работа оформлена и растолкована так хорошо, что грех ее не отметить.
Кроме того, замысел огненный.
Помните последние фишечки-рюшечкий от Krea Paint?
В принципе и в chatGPT можно присунуть коллаж с картинками и стрелками, показывающими чего куда вструмить, а в промпте написать общий замысел.
Но тут замысел идет сильно дальше - в анимацию. Те, кто в курсе про сториборды, аниматики и огурцы, оценят.
Рисуем стрелочками желаемое движение, и получаем, о чудо, 3Д-движение 3Д-болвана, то есть анимацию в 3Д.
Аниматоры сейчас взорут - это не анимация, это шевеляж.
Но это отдельная тема и тема о том, что было в обучающем датасете, сколько там Диснея, а сколько мокапа.
Но подумайте, что вообще происходит?!?! Этот стохастический попугай генерит 3Д-анимацию по одному кадру раскадровки со стрелочками.
Я в восторге. Но одна мысль не дает мне покоя: возможно конце года это можно будет делать в chatGPT\Gemini\Sora\Veo2\3 и далее по списку.
https://zhongleilz.github.io/Sketch2Anim/
@cgevent
4👍45🔥21❤10👎2
Коль скоро мы тут за графику и мозги в основном, держите довольно хорошо известную оптическую иллюзию.
Один из способов, с помощью которого наша нервная система воспринимает движение, - это так называемый фи-феномен. Эта неврологическая система превращает быстрые последовательности изменений цвета или яркости в нечто более глубокое, например в общее ощущение того, что что-то изменило положение.
Наиболее глазастые и пронырливые могут попросить у chatGPT команду ffmpeg, которая разложит видео на кадры:
ffmpeg -i input.mp4 frames/frame_%04d.png
Они же смогут заметить, что меняется не только цвет, но и по самому краю "ползет" тонкий контрастный контур разного цвета.
Но это не так важно, мы просто наблюдаем, как движение цвета в неподвижной форме, превращается в наших кожаных мозгах в движение самой формы. Кстати, стрелки можете закрыть пальцем, они вообще не играют роли.
А я попросил chatGPT сбацать мне питонг-скрипт, который разбирает видео на кадры и собирает их обратно в рандомном порядке. Иллюзия тут же пропала.
Всем критического мышления с утра.
Кому интересно, тут больше теории.
@cgevent
Один из способов, с помощью которого наша нервная система воспринимает движение, - это так называемый фи-феномен. Эта неврологическая система превращает быстрые последовательности изменений цвета или яркости в нечто более глубокое, например в общее ощущение того, что что-то изменило положение.
Наиболее глазастые и пронырливые могут попросить у chatGPT команду ffmpeg, которая разложит видео на кадры:
ffmpeg -i input.mp4 frames/frame_%04d.png
Они же смогут заметить, что меняется не только цвет, но и по самому краю "ползет" тонкий контрастный контур разного цвета.
Но это не так важно, мы просто наблюдаем, как движение цвета в неподвижной форме, превращается в наших кожаных мозгах в движение самой формы. Кстати, стрелки можете закрыть пальцем, они вообще не играют роли.
А я попросил chatGPT сбацать мне питонг-скрипт, который разбирает видео на кадры и собирает их обратно в рандомном порядке. Иллюзия тут же пропала.
Всем критического мышления с утра.
Кому интересно, тут больше теории.
@cgevent
👍56❤16😱7👎1