Метаверсище и ИИще

Рендер или видео?
Ускорено или нет?

Рендер - 👍
Видео - 🔥

Китайцы из EngineAI, конечно, приподзажигают со своими робатами.

А мы тут такие, 3Д генераторы, Wonder Dynamics, все дела..

@cgevent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

36🔥131👍34❤4

6.44K viewsSergey Tsyptsyn ️️, 09:49

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Помните старый фильм Живая сталь (Real Steel, 2011)?

Сколько интересно был бюджет на графику\аниматронику.

А сейчас можно взять робата из предыдущего поста и просто снять, а потом ускорить. 😄

@cgevent

👍26❤4

6.62K viewsSergey Tsyptsyn ️️, edited 09:52

Метаверсище и ИИще

0:53

This media is not supported in your browser

VIEW IN TELEGRAM

ИИ идет по спирали.

Когда-то у Диснея еще в 2018(!!) году была удивительная работа (Cardinal AI) по конвертации сценариев(сторибордов) прямо в анимацию, а не в статичные модели. Они обновили ее в 2019 году (ссылка), и там это выглядело не только как построение лэйаутов, а еще и генерация анимации. И да, все это работало на основе библиотеки моделей, откуда таскались ассеты.

А теперь поглядите куда мы пришли со связкой Блендор + Клод + MCP.

На прошлой неделе Клод моделил самолетики и мебель, а сейчас смышленые парни прикрутили туда 3Д-сток с модельками, чтобы он не мучился, а таскал ассеты оттуда.
Вы просто покрутите видео и поглядите как импортируются текстуры, модели и хдри. И создается сцена с пляжем

И вот тут пора расчехляться Шаттерстоку...

Проматываем вперед: стоки забиты сгенерированными текстурами и 3Д-моделями, над ними парит Блендор, который на стероидах Клода, быстро собирает лего в соответствии с промптами (нет, не юзера, а) LLM, которая переводит хотелки заказчика в нужные промпты.
А Блендор нейрорендерит все это под нужный стиль..

@cgevent

4🔥64👍12❤3

8.17K viewsSergey Tsyptsyn ️️, 10:18

Метаверсище и ИИще

Квази-3Д-генерация. И квази-ретопология.

Берете картинку, открываете Google AI Studio (бесплатно), берете модель 2.0 Flash или 2.0 Flash Thinking, даете ей на вход свою картинку и просите:

edit this image to generate with Imagen3 a 3d wireframe representation (as image) of every unique object and subject in this scene. it should look like a blender 3d viewport with wireframe mode turned on.

Гугл выдает вам, грубо говоря, wireframe render.

Он сам сегментирует объекты, честно пытается представить их топологию в 3Д и выдает вам варианты.

Скажу заранее, вам придется с ним как следует поругаться, прежде чем он что-то начнет выдавать. Например, сначала попросите сгенерить просто любую картинку.

Еще раз, это просто 2Д-картинка. Тут нет 3Д модели.

Но очень интересно смотреть, как он "понимает" сцену.

Я сгенерил бутылку на столе(первая картинка) - сцена простая, но вы можете его помучить на более сложных сценах. Обратите внимание на топологию стола и окна на второй картинке.

@cgevent

2❤23👍18😁3

6.71K viewsSergey Tsyptsyn ️️, 11:18

Метаверсище и ИИще

Заканчиваем 3Д-марафон эпическим сравнением 3Д-генераторов.

От самого Энди Прайса - Блендор Гуру.

Поглядите картинки, они красноречивы сами по себе.
Там правда есть момент, Энди не юзал Rodin Pro, за что ему насовали в коментах. Потом исправился, но не на всех тестах.

А я просто переведу твит Энди, так как сильно согласен с ним насчет редакитруемости и топологии.

Несколько тестов, чтобы понять, стоит ли художникам беспокоиться об искусственном интеллекте.

Честно говоря, ИИ стал очень хорош (особенно Prism: https://3daistudio.com). Но редактирование еще долго будет оставаться его главной проблемой. Кашеобразные(messy) сетки означают, что даже небольшие исправления требуют дорогостоящего ретопа.

Лучше всего ИИ справляется с непрозрачными, гладкими формами, которые часто встречаются в датасетах (автомобили, люди и т.д.), и хуже всего - со сложными объектами с мелкими деталями (деревья и т.д.)

Один из навыков, который будет очень ценен в будущем, - это ретоп и текстурирование. Если вы хотите повысить квалификацию, изучите любой существующий сегодня рабочий процесс по очистке фотограмметрии, потому что это, по сути, одно и то же.

Или сосредоточьтесь на "hero assets". Все, что находится близко к камере, должно быть точным, а AI-модели таковыми не является.

К игровым активам также предъявляются гораздо более сложные требования (UV-пространство, герметичные сетки, оптимизированные шейдеры), и я сомневаюсь, что ИИ сможет решить это в течение некоторого времени.

https://x.com/andrewpprice/status/1901678647850717638

@cgevent

🔥34👍15❤5😱2

8.12K viewsSergey Tsyptsyn ️️, 11:31

Метаверсище и ИИще

Forwarded from Psy Eyes

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

PikaSwaps как виртуальная примерочная. Вполне возможно при спросе Pika смогут вывести этот продукт в отдельный сервис. Kling так и сделал с Virtual Try-On.

Твит

👍41❤4👎2

5.77K viewsSergey Tsyptsyn ️️, 17:07

Метаверсище и ИИще

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Облачные сервисы для аренды GPU и генерации всего.

Я уже проводил опрос про аренду GPU и по итогам нарисовалась тройка лидеров:
Runpod.io
Immers.cloud
Vast.ai

Я решил протестировать юзабилити и заодно поглядеть, как можно оптимизировать собственное поведение, чтобы экономить.

У меня в основном задачи, связанные с больше с быстрым тестированием и микроресерчем, чем с выстраиванием фиксированного пайплайна, поэтому мой опыт может подойти не всем, но я постарался вынести универсальные полезные выводы.

Взял довольно нагрузочную задачу связанную с генерацией видео в WAN, пошел на Immers.cloud и зашел сразу с козырей - аренда H100. Дело в том, что с выходом новых опенсорсных моделей, я прежде всего стараюсь тестировать модель "из коробки", не дожидаясь квантизации, оптимизации, адаптации под Комфи - хочется смотреть на непожатое качество и чистые, так сказать, возможности модели. Как правило, это тестирование в командной строке или в интерфейсе Gradio (типа как в Фордже), который не требует шаманства с Комфи и установок десятка дополнительных нод и выводка ужатых моделей.

WAN поддерживает технологию FlashAttention 3, которая работает только на картах с архитектурой Hopper (H100, H800).

Было интересно посмотреть на прирост, точнее на уменьшение времени генерации.

Давайте сразу приведу цифры, а потом изложу историю тестирования.

Тестировал модель Wan Image2video 14B в разрешении 480р, 5 секунд, 10 шагов, потребление - 70 гиг.

На карте A100 генерация шла со скоростью 20 секунд на итерацию, всего 3:24 минуты.
На карте H100 с Flash Attention 2 - 14 секунд на итерацию, всего 2:20 минуты.
На карте H100 с Flash Attention 3 - 10 секунд на итерацию, всего 1:48 минуты.

В общем выигрыш примерно в полтора раза, как и написано в бумаге.

Теперь, про опыт с immers.cloud - читаем следующий пост.

@cgevent

👍24🔥6❤4🙏2

10.1K viewsSergey Tsyptsyn ️️, edited 17:08

Метаверсище и ИИще

Теперь, про опыт с immers.cloud

Интерфейс на русском, это довольно большой плюс, ибо информации, чтобы сделать нужный выбор требуется довольно много, но везде есть минисправка.
Проще всего сразу тыкать в GPU, там выбирать сопутствующее железо (оперативка, диск - на цену не сильно влияют, брал по макс).
И можно сразу выбрать предустановленное(это плюс)

Тут сразу нюанс, у меня есть опыт работы с Линуксом, в чем мне сильно помог год назад chatGPT. Поэтому если выбирать машину с Убунтой, то у вас сразу может быть сервер установленным ComfyUI, Forge, Foocus и даже Automatic. Stable Diffusion и FLUX. Видеогенераторов пока нет.
Это может сильно сэкономить время, а оно стоит денег.

Что будет, если создать Windows Server - мне пока неведомо. Большинство новых моделей по умолчанию работают на Убунте и установка доп пакетов происходит там достаточно гладко. На Винде есть вопросы.

Дальше следующий нюанс. Подключение к Винде будет через Remote Desktop Protocol (RDP) - это довольно просто и у вас на экране будет просто интерфейс Винды (с Мака тоже можно).

А подключаться к Убунте придется через SSH. Для этого есть программка PUTTY (работает на всех операционках). С ней нужно научиться работать, а точнее следовать инструкциям, где указать маленький pem-файл авторизации, который вам дадут при создании сервака.
На сайте не указано, но утилита WinSCP прекрасно работает с файлами авторизации - это типа Total Comander - незаменимая вещь для закачки и скачивания файлов с сервера.

Так как мне нужна была видеогенерация, то я просто выбрал Линукс-сервер с последней CUDA 12.8, и нажал Создать. Надо сказать, что создается сервак небыстро, минут 15.

А потом вы просто попадаете в командную строку Ubuntu.

Повторюсь, у меня был опыт, но все равно понадобилось время(деньги), чтобы понять, что надо доставить, прежде чем разворачивать собственно WAN.

Дальше я просто запустил их же Gradio интерфейс и бросился тестировать в окне браузера.

Итого:
1. Что понравилось.
Все на русском с понятными справками.
Интернет на сервере ОЧЕНЬ быстрый.
Можно выбрать предустановленный Комфи и других.
Можно сохранять состояние сервера и возвращаться в это состояние после повторного подключения.
Можно прозрачно видеть за что и когда заплачено.

2. Что не понравилось.
Сервер стартует довольно долго. Но я не сравнивал с другими сервисами. Приходится постоянно поглядывать в окно браузера на статус. А если отвлекся, то можно пропустить момент активации и начала тарификации.

Хочется предустановленных Ваню с Хуней.

Теперь советы по экономии.

1. Там есть два режима остановки сервака: STOP и SHELVE. Так вот, STOP не останавливает тарификацию, а лишь снижает ее (вы все равно платите за аллокацию ресурса). Чтобы полностью остановить сервак и не платить за простой, надо делать SHELVE - класть на полку (хибернация для виндоводов). Если отойти чай заварить, то можно и застопить, а если закончить работу на пару часов, то на полку.

2. Потренируйтесь устанавливать то, что будете использовать где-то еще. Например на домашнем компе. Убедитесь, что все заводится, пройдите путь до успешного запуска и вылетания по нехватке памяти, например. Тратить серверное время на установку пакетов и коррекции возникающих ошибок - неоптимально. Если не на чем, сделайте сервак на самой дешевой карте, потренируйтесь там, а потом уже поднимайте монстра. У вас должен быть сценарий действий на руках, а не следование инструкциям с гитхаба, на которые уходят иногда часы. Я угрохал несколько часов на установку Flash Attention 3, а мог бы подготовиться заранее и почитать интернетик (кстати помог на итоге Грок 3).

3. На Убунте вам захочется сохранять окружение среды, всякие env, пути и другие настройки. Для этого есть утилита tmux. Вернет вас туда, откуда вы ушли при деактивации сервака.

4. С Комфи - отдельная история, это не веб-приложение, к нему не обратишься по IP адресу или Градио-ссылке. Киньте пару (сотен) звезд, расскажу как настроить PUTTY, чтобы видеть морду Комфи с сервака у себя на компе

5. Используйте WinSCP, вам же надо выкачивать свои генерации.

@cgevent

465👍51🔥10❤9👎3🙏2

6.37K viewsSergey Tsyptsyn ️️, 17:09

Метаверсище и ИИще

Комфи на удаленной машине.

Тут гораздо более умные подписчики советуют накатить VS Code или небрежно поднять на серваке nginx как прокси.

Однако, я ненастоящий сварщик, поэтому просто лезу в PuTTy: Connections->SSH->Auth->Tunnels
Source Port = 7899 (тут вы сами придумываете)
Destination = 127.0.0.1:8188 (а вот тут 8188 - это номер порта, который вам показал Комфи при запуске на сервере в командной строке или вы задали при запуске Комфи, например "python main.py --port 8190")

Жмете Add и потом просто коннектитесь к серверу (вы же задавали это для своего соединения с сервером, выбрав его в разделе Sessions и нажав Load).

Запускаете на сервере Комфи (или любой другой сервис, отдающий номер порта), а у себя на локальной машине в браузере вбиваете:
http://127.0.0.1:7899/

И видите свой Комфи на сервере.

@cgevent

👍32❤6🔥6

6.59K viewsSergey Tsyptsyn ️️, 08:36

Метаверсище и ИИще

Forwarded from AI Product | Igor Akimov

This media is not supported in your browser

VIEW IN TELEGRAM

Красивое от Stability.ai - Stable Virtual Camera.
Теперь можно управлять перемещением камеры по вашей картинке. Всякие киношные эффекты.

Виртуальная камера - это цифровой инструмент, используемый в кинематографе и 3D-анимации для захвата и навигации по цифровым сценам в реальном времени. Stable Virtual Camera основывается на этой концепции, сочетая привычное управление традиционными виртуальными камерами с мощью генеративного ИИ для обеспечения точного и интуитивно понятного контроля над 3D-видео.

Stable Virtual Camera предлагает расширенные возможности для создания 3D-видео, включая:

✅ Динамическое управление камерой: Поддержка пользовательских и предустановленных траекторий (360°, Lemniscate, Dolly Zoom, Spiral, Pan, Move и другие).
✅ Гибкие входы: Генерирует 3D-видео как из одного входного изображения, так и из 32.
✅ Множество соотношений сторон: Создает квадратные, портретные, альбомные и пользовательские соотношения сторон, не требуя дополнительного обучения.
✅ Генерация длинного видео: Сохраняет 3D-последовательность до 1 000 кадров.
Код открыт, но лицензия некоммерческая.

Подробнее - https://stability.ai/news/introducing-stable-virtual-camera-multi-view-video-generation-with-3d-camera-control

Код - https://github.com/Stability-AI/stable-virtual-camera
Рисерч - https://static1.squarespace.com/static/6213c340453c3f502425776e/t/67d9989ba4ff4454cae891e0/1742313633904/stable-virtual-camera.pdf

🔥25😱25❤18👍10👎2

6.25K viewsSergey Tsyptsyn ️️, 08:38

Метаверсище и ИИще

0:53

This media is not supported in your browser

VIEW IN TELEGRAM

На этой неделе все немного взбесились в области 3Д. GDC на дворе

В общем Хуньянь бахнул Hunyuan 3D 2.0 Turbo.

Это ускоренная в ТРИДЦАТЬ РАЗ версия 3Д-генератора от Хуньянь, анонсированного позавчера.

Скоро обещают код.

@cgevent

🔥49👍11😱6❤1😁1

7.44K viewsSergey Tsyptsyn ️️, 10:42

About

Blog

Apps

Platform