Stable Video 1.1 открыли для всех. Можно играцца.
Я уже писал про нее 3 недели назад.
https://xn--r1a.website/cgevent/7418
А теперь после демо SORA это выглядит бессмысленно.
Но вы попробуйте ещё раз:
https://www.stablevideo.com/
4 секунды макс, и как пишет Эмад
Something to note: Stable Video was trained from Stable Diffusion 2 (ie a 2022 model!)
Я уже писал про нее 3 недели назад.
https://xn--r1a.website/cgevent/7418
А теперь после демо SORA это выглядит бессмысленно.
Но вы попробуйте ещё раз:
https://www.stablevideo.com/
4 секунды макс, и как пишет Эмад
Something to note: Stable Video was trained from Stable Diffusion 2 (ie a 2022 model!)
Telegram
Метаверсище и ИИще
Пришло приглашение в Stable Video Diffusion 1.1 - доступ к сайту.
На день дается 150 кредитов, одна генерация с дефолтным качеством забирает 10 кредитов и длится около минуты или меньше. Можно запрашивать больше кредитов, денег не просят.
Два режима - генерация…
На день дается 150 кредитов, одна генерация с дефолтным качеством забирает 10 кредитов и длится около минуты или меньше. Можно запрашивать больше кредитов, денег не просят.
Два режима - генерация…
👎16👍11🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-видео-генератор от Snap.
Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:
Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).
Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).
Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html
Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.
А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/
Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.
Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.
Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:
Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).
Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).
Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html
Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.
А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/
Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.
Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.
🔥32👍12
Илон Маск приподвзорвал интернетик, намекнув на возможное сотрудничество между Твиттором и MidJourney.
"Мы ведем интересные переговоры с Midjourney, и, возможно, из этого что-то получится, но в любом случае, так или иначе, мы сделаем возможным генерацию Арта на платформе X".
Мне эта новость нравится тем, что у Midjourney станет явно больше денег. И, возможно, им достанутся некоторые наработки от Grok (LLM от Маска) - встраивание трансформеров в генерацию картинок становится мейнстримом, а промптинг в Midjourney до сих пор носит заклинательно шаманский характер. Ждем от новых версий MJ промтинга на обычном языке, как в DALL·E 3 и демках Stable Diffusion 3 и Cascade.
"Мы ведем интересные переговоры с Midjourney, и, возможно, из этого что-то получится, но в любом случае, так или иначе, мы сделаем возможным генерацию Арта на платформе X".
Мне эта новость нравится тем, что у Midjourney станет явно больше денег. И, возможно, им достанутся некоторые наработки от Grok (LLM от Маска) - встраивание трансформеров в генерацию картинок становится мейнстримом, а промптинг в Midjourney до сих пор носит заклинательно шаманский характер. Ждем от новых версий MJ промтинга на обычном языке, как в DALL·E 3 и демках Stable Diffusion 3 и Cascade.
👍67🔥10👎5
Про пальцы и тексты. Баг, а не фича.
Про тексты на сгенерированных картинках я уже писал. Не очень понимаю, зачем столько усилий тратится на это. Шрифты, расстояния между буквами, размер букв относительно друг друга и еще десяток параметров, знакомых любому фотошопщику, просто рандомно накиданы на картинке. Я так понимаю, что 90% усилий было потрачено на то, чтобы генератор хотя бы писал тексты без ошибок. Но, блин, само написание кривое, косое, рандомное. Может у меня глаз профдеформирован, конечно, но это не шрифты, а рандом из букв. Который нельзя никак контролировать. Может быть кто-то придумает ControlNet для шрифтов, где в промпте можно указывать написание, кегль, засечки, размер - но это странный путь.
Теперь про пальцы. Вот держите примеры из Stable Diffusion 3. Как и со шрифтами 90% усилий потрачено на то, чтобы было 5 (не 6 или 4)
пальцев на руке. И все равно на картинках мелькают варианты c 4, 5.5, 6 пальцами. Ну и самишрифты ладони очень кривые: это как правило мужские ладони, сильно не попадающие в размер самой руки, правая и левая разные, ну и так далее. При этом жесты типа V (виктори) или U (коза) вполне себе норм, ибо зашиты в датасетах.
Я это к тому, что демонстрировать все эти тексты или пальцы лучше на картинках с граффити или без вот этих вот открытых нарочитых ладоней. В хорошие шрифты или ровные пальцы модели все равно не умеют (по природе своей), поэтому просто скажите, что пальцы стали лучше, а ошибок стало меньше, но не подавайте это как фичу. Это багфикс, но не фича.
Про тексты на сгенерированных картинках я уже писал. Не очень понимаю, зачем столько усилий тратится на это. Шрифты, расстояния между буквами, размер букв относительно друг друга и еще десяток параметров, знакомых любому фотошопщику, просто рандомно накиданы на картинке. Я так понимаю, что 90% усилий было потрачено на то, чтобы генератор хотя бы писал тексты без ошибок. Но, блин, само написание кривое, косое, рандомное. Может у меня глаз профдеформирован, конечно, но это не шрифты, а рандом из букв. Который нельзя никак контролировать. Может быть кто-то придумает ControlNet для шрифтов, где в промпте можно указывать написание, кегль, засечки, размер - но это странный путь.
Теперь про пальцы. Вот держите примеры из Stable Diffusion 3. Как и со шрифтами 90% усилий потрачено на то, чтобы было 5 (не 6 или 4)
пальцев на руке. И все равно на картинках мелькают варианты c 4, 5.5, 6 пальцами. Ну и сами
Я это к тому, что демонстрировать все эти тексты или пальцы лучше на картинках с граффити или без вот этих вот открытых нарочитых ладоней. В хорошие шрифты или ровные пальцы модели все равно не умеют (по природе своей), поэтому просто скажите, что пальцы стали лучше, а ошибок стало меньше, но не подавайте это как фичу. Это багфикс, но не фича.
👍56
This media is not supported in your browser
VIEW IN TELEGRAM
Вот держите гибридный пайплайн от генерации 3D-модели персонажа, до рига, анимации и нейрорендера. Без всякого ретопа, текстурирования и шейдинга.
Берется Luma AI для того чтобы сгенерить десяток вариантов 3Д-персонажа по текстовому промпту.
Получается довольно обмылочный персонаж в духе PS1 с кривой топологией и кашей вместо головы и рук.
Дальше он тащится в Mixamo и там на него тупо кидается авториг. А потом и анимация в духе Hadouken!
Дальше превью анимации с этим болваном кормится в КонтролНет, чтобы достать оттуда позу и объем с глубиной - для дальнейшего нейрорендеринга с помощью AnimateDiff.
Ну то есть идея такая - генерим низкокачественного болвана персонажа с помощью ИИ, кладем болт на топологию и качественный риг, просто одеваем его в скелет и наваливаем нужную нам анимацию (пусть с заломами и косяками на сгибах). На этапе нейрорендеринга все эти косяки сгладятся в процессе переноса стиля из промпта или картинки.
Одна засада - надо знать Mixamo, анимацию и вот это ваше дурацкое 3Д.
Впрочем нажать кнопку Autorig и потом выбрать из библиотеки анимацию (или сгенерить промптом, или забрать по эклеру из видео с помощью open pose) может любой, даже не знакомый с 3Д. Осталось эти кнопки вструмить внутрь ComfyUI или A1111 и спрятать подальше эти ацкие настройки ControlNet - вот и будет вам AIMixamo.
P.S. Качество ИИ-генерации 3Д настолько плохое, что чувак отдельно потом генерит голову и руки для персонажа и пришивает их к полигональному мешу и начинает все сначала (иначе КонтролНет не хавает уродца). И вот тут уже надо знать 3Д, сорян.
Но проблески будущих однокнопочных пайплайнов отчетливо проступают из шума диффузии.
P.S.S. Была такая поговорка у продакшенов - "на посте все поправят". Теперь на посте сидят такие: "зачем моделить правильно, на нейрорендеринге все поправится".
Короче, расслабляем булки, ИИ все поправит. За вас.
Автор обещает полный тутор тут:
https://twitter.com/8bit_e/status/1761111050420727895
Берется Luma AI для того чтобы сгенерить десяток вариантов 3Д-персонажа по текстовому промпту.
Получается довольно обмылочный персонаж в духе PS1 с кривой топологией и кашей вместо головы и рук.
Дальше он тащится в Mixamo и там на него тупо кидается авториг. А потом и анимация в духе Hadouken!
Дальше превью анимации с этим болваном кормится в КонтролНет, чтобы достать оттуда позу и объем с глубиной - для дальнейшего нейрорендеринга с помощью AnimateDiff.
Ну то есть идея такая - генерим низкокачественного болвана персонажа с помощью ИИ, кладем болт на топологию и качественный риг, просто одеваем его в скелет и наваливаем нужную нам анимацию (пусть с заломами и косяками на сгибах). На этапе нейрорендеринга все эти косяки сгладятся в процессе переноса стиля из промпта или картинки.
Одна засада - надо знать Mixamo, анимацию и вот это ваше дурацкое 3Д.
Впрочем нажать кнопку Autorig и потом выбрать из библиотеки анимацию (или сгенерить промптом, или забрать по эклеру из видео с помощью open pose) может любой, даже не знакомый с 3Д. Осталось эти кнопки вструмить внутрь ComfyUI или A1111 и спрятать подальше эти ацкие настройки ControlNet - вот и будет вам AIMixamo.
P.S. Качество ИИ-генерации 3Д настолько плохое, что чувак отдельно потом генерит голову и руки для персонажа и пришивает их к полигональному мешу и начинает все сначала (иначе КонтролНет не хавает уродца). И вот тут уже надо знать 3Д, сорян.
Но проблески будущих однокнопочных пайплайнов отчетливо проступают из шума диффузии.
P.S.S. Была такая поговорка у продакшенов - "на посте все поправят". Теперь на посте сидят такие: "зачем моделить правильно, на нейрорендеринге все поправится".
Короче, расслабляем булки, ИИ все поправит. За вас.
Автор обещает полный тутор тут:
https://twitter.com/8bit_e/status/1761111050420727895
👍43🔥12👎6
Forwarded from e/acc
Media is too big
VIEW IN TELEGRAM
Руки, ноги или колеса?
Ответ: все вместе
А вообще, время когда роботы или люди-киборги менее быстрые, ловкие, сильные, выносливые, точные, чем животные (и обычные люди) — это очень короткий, незаметный на таймлайне эволюции, период. Который почти подошел к концу.
Ответ: все вместе
А вообще, время когда роботы или люди-киборги менее быстрые, ловкие, сильные, выносливые, точные, чем животные (и обычные люди) — это очень короткий, незаметный на таймлайне эволюции, период. Который почти подошел к концу.
🔥49
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за вебкам!
Мне кажется пора начать приподвыпивать не чокаясь за вебкам.
Тут на 20-й секунде раскрыта тема физики сисек.
Ну и всё..
За моделей, не чп окаясь.
За нейромоделей, звонко!
P.S. Блин, наткнулся на целый клондайк такого добра в любом стиле..
Реально можно увольнять моделей...
Полайкайте, навалю вам огненных видосов.
Мне кажется пора начать приподвыпивать не чокаясь за вебкам.
Тут на 20-й секунде раскрыта тема физики сисек.
Ну и всё..
За моделей, не ч
За нейромоделей, звонко!
P.S. Блин, наткнулся на целый клондайк такого добра в любом стиле..
Реально можно увольнять моделей...
Полайкайте, навалю вам огненных видосов.
🔥324👍54👎10
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Вебкам туториал.
Вебкам модели ведут себя примерно одинаково, особенно на интро-видосах типа "залетай ко мне в кабинет на процедуры". Движения до боли однотипные.
Теперь их (движения и модели) можно нейрорендерить в любом стиле и количестве. Кого-трясет, что браслет на руке иногда пропадает? Руки не для скуки, как известно. Вам фан или реалистичность?
Более того, солидные господа бегут от реалистичности в мир фантазий и ролевых игр. ИИ даст им и первое и второе.
И третье.
Тут, конечно, больше разнообразных типатанцев, но вебкамные движения нет, да и проглядываются... Или показалось? (Особенно на некоторых бекграундах).
Вот в такие метаверсы народ пойдет с удовольствием...
Ну ок, я ж про полезности в канале, а не про сиськи. Вот держите туториал, по которому делаются такие видосы:
https://www.youtube.com/watch?v=AN2Qf7Gek4g
Для совсем упоротых, вот вам настройки:
animation use this setting:
stage 2 - min keyframe gap - 3, max keyframe gap - 1000, treshold delta - 8.5.
stage 3 - [img2img] prefered controlnet is tile/blur, temporalnet, and lineart at weight 1. Sampler choice is LCM, steps ( minimum is 8, if too blurry I set to 30), CFG ( pick around 2 - 4, you need more steps for high cfg) better test 1 or 2 image first before generating whole keyframe.
Use the prefered resolution recommended on stage 3 description. Adetailer, enable and pick the one with face detection.
Вебкам модели ведут себя примерно одинаково, особенно на интро-видосах типа "залетай ко мне в кабинет на процедуры". Движения до боли однотипные.
Теперь их (движения и модели) можно нейрорендерить в любом стиле и количестве. Кого-трясет, что браслет на руке иногда пропадает? Руки не для скуки, как известно. Вам фан или реалистичность?
Более того, солидные господа бегут от реалистичности в мир фантазий и ролевых игр. ИИ даст им и первое и второе.
И третье.
Тут, конечно, больше разнообразных типатанцев, но вебкамные движения нет, да и проглядываются... Или показалось? (Особенно на некоторых бекграундах).
Вот в такие метаверсы народ пойдет с удовольствием...
Ну ок, я ж про полезности в канале, а не про сиськи. Вот держите туториал, по которому делаются такие видосы:
https://www.youtube.com/watch?v=AN2Qf7Gek4g
Для совсем упоротых, вот вам настройки:
animation use this setting:
stage 2 - min keyframe gap - 3, max keyframe gap - 1000, treshold delta - 8.5.
stage 3 - [img2img] prefered controlnet is tile/blur, temporalnet, and lineart at weight 1. Sampler choice is LCM, steps ( minimum is 8, if too blurry I set to 30), CFG ( pick around 2 - 4, you need more steps for high cfg) better test 1 or 2 image first before generating whole keyframe.
Use the prefered resolution recommended on stage 3 description. Adetailer, enable and pick the one with face detection.
🔥79👎31👍24