Метаверсище и ИИще
47K subscribers
5.97K photos
4.43K videos
45 files
6.87K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Stable Video 1.1 открыли для всех. Можно играцца.
Я уже писал про нее 3 недели назад.
https://xn--r1a.website/cgevent/7418

А теперь после демо SORA это выглядит бессмысленно.
Но вы попробуйте ещё раз:
https://www.stablevideo.com/

4 секунды макс, и как пишет Эмад

Something to note: Stable Video was trained from Stable Diffusion 2 (ie a 2022 model!)
👎16👍11🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-видео-генератор от Snap.

Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:

Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).

Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).

Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html

Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.

А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/

Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.

Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.
🔥32👍12
Илон Маск приподвзорвал интернетик, намекнув на возможное сотрудничество между Твиттором и MidJourney.

"Мы ведем интересные переговоры с Midjourney, и, возможно, из этого что-то получится, но в любом случае, так или иначе, мы сделаем возможным генерацию Арта на платформе X".

Мне эта новость нравится тем, что у Midjourney станет явно больше денег. И, возможно, им достанутся некоторые наработки от Grok (LLM от Маска) - встраивание трансформеров в генерацию картинок становится мейнстримом, а промптинг в Midjourney до сих пор носит заклинательно шаманский характер. Ждем от новых версий MJ промтинга на обычном языке, как в DALL·E 3 и демках Stable Diffusion 3 и Cascade.
👍67🔥10👎5
Про пальцы и тексты. Баг, а не фича.

Про тексты на сгенерированных картинках я уже писал. Не очень понимаю, зачем столько усилий тратится на это. Шрифты, расстояния между буквами, размер букв относительно друг друга и еще десяток параметров, знакомых любому фотошопщику, просто рандомно накиданы на картинке. Я так понимаю, что 90% усилий было потрачено на то, чтобы генератор хотя бы писал тексты без ошибок. Но, блин, само написание кривое, косое, рандомное. Может у меня глаз профдеформирован, конечно, но это не шрифты, а рандом из букв. Который нельзя никак контролировать. Может быть кто-то придумает ControlNet для шрифтов, где в промпте можно указывать написание, кегль, засечки, размер - но это странный путь.

Теперь про пальцы. Вот держите примеры из Stable Diffusion 3. Как и со шрифтами 90% усилий потрачено на то, чтобы было 5 (не 6 или 4)
пальцев на руке. И все равно на картинках мелькают варианты c 4, 5.5, 6 пальцами. Ну и сами шрифты ладони очень кривые: это как правило мужские ладони, сильно не попадающие в размер самой руки, правая и левая разные, ну и так далее. При этом жесты типа V (виктори) или U (коза) вполне себе норм, ибо зашиты в датасетах.

Я это к тому, что демонстрировать все эти тексты или пальцы лучше на картинках с граффити или без вот этих вот открытых нарочитых ладоней. В хорошие шрифты или ровные пальцы модели все равно не умеют (по природе своей), поэтому просто скажите, что пальцы стали лучше, а ошибок стало меньше, но не подавайте это как фичу. Это багфикс, но не фича.
👍56
This media is not supported in your browser
VIEW IN TELEGRAM
Вот держите гибридный пайплайн от генерации 3D-модели персонажа, до рига, анимации и нейрорендера. Без всякого ретопа, текстурирования и шейдинга.

Берется Luma AI для того чтобы сгенерить десяток вариантов 3Д-персонажа по текстовому промпту.
Получается довольно обмылочный персонаж в духе PS1 с кривой топологией и кашей вместо головы и рук.
Дальше он тащится в Mixamo и там на него тупо кидается авториг. А потом и анимация в духе Hadouken!
Дальше превью анимации с этим болваном кормится в КонтролНет, чтобы достать оттуда позу и объем с глубиной - для дальнейшего нейрорендеринга с помощью AnimateDiff.
Ну то есть идея такая - генерим низкокачественного болвана персонажа с помощью ИИ, кладем болт на топологию и качественный риг, просто одеваем его в скелет и наваливаем нужную нам анимацию (пусть с заломами и косяками на сгибах). На этапе нейрорендеринга все эти косяки сгладятся в процессе переноса стиля из промпта или картинки.

Одна засада - надо знать Mixamo, анимацию и вот это ваше дурацкое 3Д.

Впрочем нажать кнопку Autorig и потом выбрать из библиотеки анимацию (или сгенерить промптом, или забрать по эклеру из видео с помощью open pose) может любой, даже не знакомый с 3Д. Осталось эти кнопки вструмить внутрь ComfyUI или A1111 и спрятать подальше эти ацкие настройки ControlNet - вот и будет вам AIMixamo.

P.S. Качество ИИ-генерации 3Д настолько плохое, что чувак отдельно потом генерит голову и руки для персонажа и пришивает их к полигональному мешу и начинает все сначала (иначе КонтролНет не хавает уродца). И вот тут уже надо знать 3Д, сорян.

Но проблески будущих однокнопочных пайплайнов отчетливо проступают из шума диффузии.

P.S.S. Была такая поговорка у продакшенов - "на посте все поправят". Теперь на посте сидят такие: "зачем моделить правильно, на нейрорендеринге все поправится".

Короче, расслабляем булки, ИИ все поправит. За вас.

Автор обещает полный тутор тут:
https://twitter.com/8bit_e/status/1761111050420727895
👍43🔥12👎6
Forwarded from e/acc
Media is too big
VIEW IN TELEGRAM
Руки, ноги или колеса?
Ответ: все вместе

А вообще, время когда роботы или люди-киборги менее быстрые, ловкие, сильные, выносливые, точные, чем животные (и обычные люди) — это очень короткий, незаметный на таймлайне эволюции, период. Который почти подошел к концу.
🔥49
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за вебкам!
Мне кажется пора начать приподвыпивать не чокаясь за вебкам.
Тут на 20-й секунде раскрыта тема физики сисек.
Ну и всё..
За моделей, не чпокаясь.
За нейромоделей, звонко!

P.S. Блин, наткнулся на целый клондайк такого добра в любом стиле..
Реально можно увольнять моделей...
Полайкайте, навалю вам огненных видосов.
🔥324👍54👎10
Вебкам туториал.

Вебкам модели ведут себя примерно одинаково, особенно на интро-видосах типа "залетай ко мне в кабинет на процедуры". Движения до боли однотипные.
Теперь их (движения и модели) можно нейрорендерить в любом стиле и количестве. Кого-трясет, что браслет на руке иногда пропадает? Руки не для скуки, как известно. Вам фан или реалистичность?
Более того, солидные господа бегут от реалистичности в мир фантазий и ролевых игр. ИИ даст им и первое и второе.
И третье.

Тут, конечно, больше разнообразных типатанцев, но вебкамные движения нет, да и проглядываются... Или показалось? (Особенно на некоторых бекграундах).

Вот в такие метаверсы народ пойдет с удовольствием...

Ну ок, я ж про полезности в канале, а не про сиськи. Вот держите туториал, по которому делаются такие видосы:
https://www.youtube.com/watch?v=AN2Qf7Gek4g

Для совсем упоротых, вот вам настройки:

animation use this setting:

stage 2 - min keyframe gap - 3, max keyframe gap - 1000, treshold delta - 8.5.

stage 3 - [img2img] prefered controlnet is tile/blur, temporalnet, and lineart at weight 1. Sampler choice is LCM, steps ( minimum is 8, if too blurry I set to 30), CFG ( pick around 2 - 4, you need more steps for high cfg) better test 1 or 2 image first before generating whole keyframe.

Use the prefered resolution recommended on stage 3 description. Adetailer, enable and pick the one with face detection.
🔥79👎31👍24