Метаверсище и ИИще

Подсобрал для вас немного утечек с Midjourney Video из Ranking Party.

Часть 2

На видео с людьми обычно мало движения (родовая болезнь ранних версий)
Очень здорово на анимациях и иллюстративном стиле
3Д, игры, облеты - не очень.

Ждем.

@cgevent

👎27🔥11❤8👍6

8.7K viewsSergey Tsyptsyn ️️, 21:55

Помог Леше RADIO_ALEXX сделать заставку.
Сора с хваленым Loop не справилась совсем, включила перемотку (ну или 19ю скорость), стала жевать пленку.
Интересно, что Veo3 повел себя хуже, чем Veo2, стал рисовать новые дырки в бобинах.
А Veo2 спокойно взял картинку в Режиме Frames-to-Video, кропнул, а в конце еще и апскейльнул до 1080p.
Текст на бобинах можно ручками в афтере доправить, но это уже излишества.
Заняло все это 6 минут на все эксперименты.
Мелочь, а приятно помочь подписчикам.

Промпт был тупой "a shot with a working reel-to-reel tape recorder , where the reels of film rotate smoothly", времени возиться с ним не было.

@cgevent

👍45👎16🔥6❤4

7.81K viewsSergey Tsyptsyn ️️, 14:19

Нейропрожарка

Основная цель была сделать фотофильную картинку с понятным сюжетом.
в reve генерировал изображения
в Kling Ai анимация
veo2 шот с ногами
Немного поста и рисования в Фотошопе

Интересный момент. Идея пришла после того как в чате упомянул стих из брат 2, я подумал сделать битву иишек, типа Open AI мочит Google и Grok, ну или наоборот. В процессе написания сценария придумал объединить их против кожаных. Стих переписал сам, chat GPT не смог помочь совсем.
Генерировал в Reve изображения, с 2х аккаунтов, что бы хватило бесплатных кредитов. После sora с ним было сложно получить то, что нужно. В итоге просто дорисовывал, недостающие детали в Фотошопе.
Анимацию делал в Kling 1,6 и половину в 2,0. Потратил на ролик 2000 кредитов.
Озвучивал сам, потом прогнал через adobe podcast и в cap cut изменил голос немного.
Ролик делался 2 дня, еще на звук и озвучку потратил несколько часов.

@cgevent

🔥61😁33👎19👍10❤7

8.34K viewsSergey Tsyptsyn ️️, 14:29

This media is not supported in your browser

VIEW IN TELEGRAM

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

1:00

This media is not supported in your browser

VIEW IN TELEGRAM

Seaweed APT2

Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation

Вы будете смеяться, но у нас новый видеогенератор.

И какой! Он генерит в реальном времени.

Это работа от Тикточека\ByteDance

Это НЕ опен-сорс, и мне кажется, он появится на Dreamina в первую очередь.
https://dreamina.capcut.com/

На выходных буду разбираться. Ибо я тут настропалил опенсорсный Self-Forcing для генерации WAN в реальном времени

Ожидайте версию без цензуры.

@cgevent

👍33❤19😁4👎2😱1

10.5K viewsSergey Tsyptsyn ️️, 14:43

Рендер или видео или Veo3?

Ну, за кожаных перформеров.

@cgevent

❤34👎15👍12😁7🔥4

8.7K viewsSergey Tsyptsyn ️️, 13:59

Видеогенераторы от Bytedance - разбираемся.

1. В конце прошлой неделе на видеоарену ворвался новый видеогенератор от Bytedance под названием Seedance 1.0

Выглядит отлично и побивает даже Veo3. Попробовать его в "чистом взрослом виде" пока нельзя.
Но на сайте https://dreamina.capcut.com/ai-tool/home есть Seedance 1.0 Mini version (also known as Video 3.0), 120 кредитов в день бесплатно

Также вчера Fal.ai объявил, что у них можно потестировать Lite версию SeeDance 1.0.

Где и когда будет доступна "взрослая версия" пока неизвестно. Все примеры, которыми нас пичкает твиттор и телеграмтор взяты с видеоарены, где народ его тестирует вслепую.

2. В пятницу я писал про Seaweed APT2. Совершенно убойный (но недоступный) генератор видосов от того же Bytedance, способный генерить видосы в РЕАЛЬНОМ времени в разрешении 736x416 на одной карте H100 и в разрешении 1280х720 на четырех H100. Причем длительностью ДО минуты.

2а. В январе уже выходила версия Seaweed APT1 - она могла делать видео в реалтайме, но длительностью только до 2 секунд.

3. Разбираемся: Seaweed APT2 - это реалтаймовая версия модели SeeWeed (Март 2025, которую мы уже обсуждали), а APT означает Autoregressive Adversarial Post-Training. Это 8-billion-parameter model achieves real-time, 24fps, nonstop, streaming video generation at 736x416 resolution, которая генерит видео за ОДИН шаг.
Все гиковатые подробности типа with KV cache, our model can generate long durations of videos all under the total computation of 1NFE можете почитать тут:
https://seaweed-apt.com/2
https://seaweed-apt.com/1

4. Разбираемся: новая модель Seedance - это дистилированная мартовская SeeWeed помощью APT (Autoregressive Adversarial Post-Training)

То есть основное семейство и foundation model это Seeweed.

Seedance - топовый дистилированный видеогенератор от Bytedance, а Seaweed APT2 - реалтаймовый генератор. Оба происходят от мартовской Seeweed (которая еще и картинки генерит).

5. Далее. У них еще есть видео-апскейлер SeedVR2 и он тоже на стероидах One-Step Video Restoration via Diffusion Adversarial Post-Training. Писал о нем в на той неделе.

6. Но и это еще не все. У них есть SeedEdit 3.0: Advanced AI Image Editing with Enhanced Detail Preservation
Редактирование картинок промптами - аналог Flux Kontext. В январе была версия 1.0, потом 1.6, и вот теперь побивающая всех 3.0 от 5 июня:
https://x.com/AINativeF/status/1932060578253513076
https://mp.weixin.qq.com/s/kFeUSeC6U0L2wkWXjYzREA

7. Но и это еще не все. ByteDance бахнули OCR-модель для распознавания любых PDF под названием Dolphin. Распознает все, что не шевелится.
https://github.com/bytedance/Dolphin
Демо: https://huggingface.co/spaces/ByteDance/Dolphin

8. А еще у них есть CameraCtrl II

Если вы окончательно охренели, то просто идите сюда:
https://seaweed-apt.com/
И вам все станет ясно.

А по моим ощущениям Bytedance - это китайский Google Labs с кучей экспериментальных проектов.
Предлагаю следить за ними пристально. Скоро взрослый Seedance 1.0 появится везде.

@cgevent

5👍42❤16🔥6😁1

8.22K viewsSergey Tsyptsyn ️️, 12:35

Метаверсище и ИИще

1:23

This media is not supported in your browser

VIEW IN TELEGRAM

0:45

This media is not supported in your browser

VIEW IN TELEGRAM

Адобченко, что ты делаешь прекрати!

А пока видеогенерация в реалтайме от Bytedance недоступна, я вам принес демо, где видос реально генерится в реальном времени. И это очень странное ощущение, ты жмешь "генерить" и НЕ ждешь, а смотришь, как оно играет.

Это очень странная смесь из канонического WAN 2.1 и работы по ускорению видеогенерации от ... Адобченко.

Реалтаймовый WAN.

Это Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Коль скоро там сказано, что оно умеет генерить в 16 кадров в секунду на H100, я не поленился и пошел расчехлять свой временно выключенный сервак на immers.cloud.
Тут хочется заметить, что с выходом год назад первого Флюкса требования к железу явно обогнали железо под столом, но зато в сети появились железки в аренду, которыми я регулярно пользуюсь, ибо терпеть вот это "а вот на H100 это крутится вот так" нет никаких сил. И для исследовательских нужд я раз в недельку поднимаю H100 на immers.cloud на пару часов.

Каково же было мое удивление, что оно действительно заработало как заявлено.
Там на https://self-forcing.github.io/ поднимается довольно замысловатое демо на flask - жмешь кнопку, оно думает 2 секунды и начинает выдавать генерацию в WAN в 16 fps! И ты такой жмешь давай еще.

Потом я понял, что это WAN, поэтому никакой цензуры быть не должно, поэтому просто добавил одно маленькое слово и проход девушки по ночному Токио заиграл иными красками. Там сломан сид, поэтому девушки все разные.

Смотрите на свой страх и риск.

Более того, там есть файл inference.py и если его отдать в chatGPT, то последний напишет набор флагов, с которыми можно все это запускать в пакетном режиме, а промпты берутся из:

https://github.com/guandeh17/Self-Forcing/blob/main/prompts/MovieGenVideoBench.txt
https://github.com/guandeh17/Self-Forcing/blob/main/prompts/MovieGenVideoBench_extended.txt

Это очень полезные файлы, набитые промптами для тестирования видеомоделей.

Запуск выглядит примерно вот так (не забыть ema):

python inference.py \
  --config_path configs/self_forcing_dmd.yaml \
  --checkpoint_path checkpoints/self_forcing_dmd.pt \
  --data_path prompts/MovieGenVideoBench.txt \
  --output_folder outputs/videos \
  --num_output_frames 21 \
  --num_samples 1 \
  --seed 42 \
  --save_with_index \
  --use_ema

И очень круто наблюдать, как каждый видос генерится секунд 10, а папка output наполняется результатами мгновенно.

Да, понятно, что это ускоренный WAN и что качество - не VEO3, но год назад было бы немыслимо наблюдать, что видео генерится в РЕАЛЬНОМ времени прям у тебя на мониторе.
Кстати, говорят на 4090 выдает 10 fps.

Но я в шоке от того, что со всех сторон валит информация о генерации видео в реальном времени.

@cgevent

🔥58❤20😱9👍8👎2

8.39K viewsSergey Tsyptsyn ️️, 13:09

Нейропрожарка

Всё началось с пары генераций в Midjourney без промптов, только sref изображения. Одну из них я отправил salty_assorti (https://xn--r1a.website/salty_assorti), а он сделал видео в только что вышедшем Veo 2.

Получился парень, будто кайфующий под музыку. Эта сцена вдохновила нас на видео, тесно связанное с ритмом и объединённое общим визуальным стилем. Было решено делать упор не на реализм, а на цепляющий визуал и динамику.

Сразу выбрали трек, отобрали самые интересные изображения и начали экспериментировать. Почти все генерации img2video делались без промптов: 70% сцен это Luma Ray 2, остальное Higgsfield, Hailuo и Veo 2.

Luma отлично подходит для экспериментов и регулярно выдает интересные сцены без промпта. Похожая ситуация с Hailuo, который тоже креативно "додумывает" визуал. А вот Veo 2 и Higgsfield требуют точных указаний, "на вайбе" не работают.

Любимая часть — интро. Оно полностью сделано в Luma, которая позволяет бесшовно продлевать сцены. Я задал вращение камеры по часовой стрелке и Luma сгенерировала плавное, непрерывное движение без пауз.

Монтаж делался в CapCut, отличное решение для небольших проектов. В нём много переходов и эффектов, которые обязательны для динамичного видео под музыку.

Отдельно выделю саунд дизайн. Изначально он не планировался, но в финальной версии стало ясно, что чего-то не хватает. Я добавил шумы и переходы, особенно это заметно в интро. Саунд дизайн делал в FL Studio, без помощи ИИ, мой опыт муз продюсера помог в этом.

Больше всего времени ушло на монтаж и саунд дизайн, так как мне как музыканту хотелось максимального совпадения ритма трека и визуала.

@cgevent

❤60🔥31👍17👎10😱1

6.9K viewsSergey Tsyptsyn ️️, 13:58

Метаверсище и ИИще

Вернемся к 3Д-генераторам.

Тут вот DeemosTech тизерят Rodin 2.0 и кидают картинку с квадами.
Угадайте, говорят, где 5 часов работы кожаного, а где 1 клик силиконового.

Я склоняюсь к тому, что ИИ - это B.

Также я склоняюсь к тому, что обе модели были пропущены через ремешер. Кожаная через zbrush, а ИИ-шная через внутренний родэновский ретоп, который они допиливают к Сигграфу.
Мне кажется чисто кожаный моделинг квадами не делает таких лупов.

В любом случае, ждем их следующую модель BANG с сегментацией, ретопом и прочими ништяками.
https://hyper3d.ai/

@cgevent

👍34❤7🔥1😁1

7.69K viewsSergey Tsyptsyn ️️, 16:39

Метаверсище и ИИще

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling

А еще у нас новый 3Д-побиватель 3Д-генераторов.

Как я понял, там идея в том, чтобы взять конское объемное разрешение - Mesh detail up to 1536³ resolution - и залить это все вокселям, которые потом обтянуть сеткой.
В итоге получаем высочайшее качество деталей - хоть щас в печку 3Д-принтера
Но отвратительное качество сетки - кашу.

Я поглядел примеры: выглядит очень нарядно именно на высокодетальных моделях. На лицах мылит, и как мне кажется в общем случае (на широком классе объектов) будет проигрывать Трипо, Хуню или Родену.

Но для вас есть демо! Можно поиграцца:
https://huggingface.co/spaces/ilcve21/Sparc3D

Бумага и проект тут: https://lizhihao6.github.io/Sparc3D/

Есть намеки на код.

@cgevent

👍23😱11❤6👎2

7.03K viewsSergey Tsyptsyn ️️, 17:02

About

Blog

Apps

Platform