Метаверсище и ИИще
47.1K subscribers
5.99K photos
4.45K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
А тем временем Хуньянь обновил свой 3Д-генератор.

Теперь там две модели.
2mini - 0.6B параметров, но генерит шустрее и лучше, чем предыдущая модель на 1.1B параметров.
2mv - multiview, генерация по нескольким картинкам (до 4 штук) с текстурированием.

Требования к памяти такие:
It takes 6 GB VRAM for shape generation and 12 GB for shape and texture generation in total with cpu offloading.

Все можно скачать и установить локально.
https://github.com/tencent/Hunyuan3D-2

Более того, есть демо-спейсы для тестирования:

https://huggingface.co/spaces/tencent/Hunyuan3D-2mv

https://huggingface.co/tencent/Hunyuan3D-2mini

@cgevent
23🔥21👍12
This media is not supported in your browser
VIEW IN TELEGRAM
Нейромоделинг, нейрориг, нейромокап плюс Unreal Engine (тут скоро будет нейрорендер).

Роден сгенерировал 3D-модель Патрика Стара, автоматически заригал ее, потом импорт в UE, где она была санимирована в реалтаймовом нейромокапе CYAN AI.
Понятно, что криво-косо, но это 5 минут вместо недели. И это пока.

Кнопка "сделать красиво" все ближе

@cgevent
🔥42👍11😁61
Рендер или видео?
Ускорено или нет?

Рендер - 👍
Видео - 🔥

Китайцы из EngineAI, конечно, приподзажигают со своими робатами.

А мы тут такие, 3Д генераторы, Wonder Dynamics, все дела..

@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
36🔥131👍344
This media is not supported in your browser
VIEW IN TELEGRAM
Помните старый фильм Живая сталь (Real Steel, 2011)?

Сколько интересно был бюджет на графику\аниматронику.

А сейчас можно взять робата из предыдущего поста и просто снять, а потом ускорить. 😄

@cgevent
👍264
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ идет по спирали.

Когда-то у Диснея еще в 2018(!!) году была удивительная работа (Cardinal AI) по конвертации сценариев(сторибордов) прямо в анимацию, а не в статичные модели. Они обновили ее в 2019 году (ссылка), и там это выглядело не только как построение лэйаутов, а еще и генерация анимации. И да, все это работало на основе библиотеки моделей, откуда таскались ассеты.

А теперь поглядите куда мы пришли со связкой Блендор + Клод + MCP.

На прошлой неделе Клод моделил самолетики и мебель, а сейчас смышленые парни прикрутили туда 3Д-сток с модельками, чтобы он не мучился, а таскал ассеты оттуда.
Вы просто покрутите видео и поглядите как импортируются текстуры, модели и хдри. И создается сцена с пляжем

И вот тут пора расчехляться Шаттерстоку...

Проматываем вперед: стоки забиты сгенерированными текстурами и 3Д-моделями, над ними парит Блендор, который на стероидах Клода, быстро собирает лего в соответствии с промптами (нет, не юзера, а) LLM, которая переводит хотелки заказчика в нужные промпты.
А Блендор нейрорендерит все это под нужный стиль..

@cgevent
4🔥64👍123
Квази-3Д-генерация. И квази-ретопология.

Берете картинку, открываете Google AI Studio (бесплатно), берете модель 2.0 Flash или 2.0 Flash Thinking, даете ей на вход свою картинку и просите:
edit this image to generate with Imagen3 a 3d wireframe representation (as image) of every unique object and subject in this scene. it should look like a blender 3d viewport with wireframe mode turned on.


Гугл выдает вам, грубо говоря, wireframe render.

Он сам сегментирует объекты, честно пытается представить их топологию в 3Д и выдает вам варианты.

Скажу заранее, вам придется с ним как следует поругаться, прежде чем он что-то начнет выдавать. Например, сначала попросите сгенерить просто любую картинку.

Еще раз, это просто 2Д-картинка. Тут нет 3Д модели.

Но очень интересно смотреть, как он "понимает" сцену.

Я сгенерил бутылку на столе(первая картинка) - сцена простая, но вы можете его помучить на более сложных сценах. Обратите внимание на топологию стола и окна на второй картинке.

@cgevent
223👍18😁3
Заканчиваем 3Д-марафон эпическим сравнением 3Д-генераторов.

От самого Энди Прайса - Блендор Гуру.

Поглядите картинки, они красноречивы сами по себе.
Там правда есть момент, Энди не юзал Rodin Pro, за что ему насовали в коментах. Потом исправился, но не на всех тестах.

А я просто переведу твит Энди, так как сильно согласен с ним насчет редакитруемости и топологии.

Несколько тестов, чтобы понять, стоит ли художникам беспокоиться об искусственном интеллекте.

Честно говоря, ИИ стал очень хорош (особенно Prism:
https://3daistudio.com). Но редактирование еще долго будет оставаться его главной проблемой. Кашеобразные(messy) сетки означают, что даже небольшие исправления требуют дорогостоящего ретопа.

Лучше всего ИИ справляется с непрозрачными, гладкими формами, которые часто встречаются в датасетах (автомобили, люди и т.д.), и хуже всего - со сложными объектами с мелкими деталями (деревья и т.д.)

Один из навыков, который будет очень ценен в будущем, - это ретоп и текстурирование. Если вы хотите повысить квалификацию, изучите любой существующий сегодня рабочий процесс по очистке фотограмметрии, потому что это, по сути, одно и то же.

Или сосредоточьтесь на "hero assets". Все, что находится близко к камере, должно быть точным, а AI-модели таковыми не является.

К игровым активам также предъявляются гораздо более сложные требования (UV-пространство, герметичные сетки, оптимизированные шейдеры), и я сомневаюсь, что ИИ сможет решить это в течение некоторого времени.


https://x.com/andrewpprice/status/1901678647850717638

@cgevent
🔥34👍155😱2
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
PikaSwaps как виртуальная примерочная. Вполне возможно при спросе Pika смогут вывести этот продукт в отдельный сервис. Kling так и сделал с Virtual Try-On.

Твит
👍414👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Облачные сервисы для аренды GPU и генерации всего.

Я уже проводил опрос про аренду GPU и по итогам нарисовалась тройка лидеров:
Runpod.io
Immers.cloud
Vast.ai

Я решил протестировать юзабилити и заодно поглядеть, как можно оптимизировать собственное поведение, чтобы экономить.

У меня в основном задачи, связанные с больше с быстрым тестированием и микроресерчем, чем с выстраиванием фиксированного пайплайна, поэтому мой опыт может подойти не всем, но я постарался вынести универсальные полезные выводы.

Взял довольно нагрузочную задачу связанную с генерацией видео в WAN, пошел на Immers.cloud и зашел сразу с козырей - аренда H100. Дело в том, что с выходом новых опенсорсных моделей, я прежде всего стараюсь тестировать модель "из коробки", не дожидаясь квантизации, оптимизации, адаптации под Комфи - хочется смотреть на непожатое качество и чистые, так сказать, возможности модели. Как правило, это тестирование в командной строке или в интерфейсе Gradio (типа как в Фордже), который не требует шаманства с Комфи и установок десятка дополнительных нод и выводка ужатых моделей.

WAN поддерживает технологию FlashAttention 3, которая работает только на картах с архитектурой Hopper (H100, H800).

Было интересно посмотреть на прирост, точнее на уменьшение времени генерации.

Давайте сразу приведу цифры, а потом изложу историю тестирования.

Тестировал модель Wan Image2video 14B в разрешении 480р, 5 секунд, 10 шагов, потребление - 70 гиг.

На карте A100 генерация шла со скоростью 20 секунд на итерацию, всего 3:24 минуты.
На карте H100 с Flash Attention 2 - 14 секунд на итерацию, всего 2:20 минуты.
На карте H100 с Flash Attention 3 - 10 секунд на итерацию, всего 1:48 минуты.


В общем выигрыш примерно в полтора раза, как и написано в бумаге.

Теперь, про опыт с immers.cloud - читаем следующий пост.

@cgevent
👍24🔥64🙏2
Теперь, про опыт с immers.cloud

Интерфейс на русском, это довольно большой плюс, ибо информации, чтобы сделать нужный выбор требуется довольно много, но везде есть минисправка.
Проще всего сразу тыкать в GPU, там выбирать сопутствующее железо (оперативка, диск - на цену не сильно влияют, брал по макс).
И можно сразу выбрать предустановленное(это плюс)

Тут сразу нюанс, у меня есть опыт работы с Линуксом, в чем мне сильно помог год назад chatGPT. Поэтому если выбирать машину с Убунтой, то у вас сразу может быть сервер установленным ComfyUI, Forge, Foocus и даже Automatic. Stable Diffusion и FLUX. Видеогенераторов пока нет.
Это может сильно сэкономить время, а оно стоит денег.

Что будет, если создать Windows Server - мне пока неведомо. Большинство новых моделей по умолчанию работают на Убунте и установка доп пакетов происходит там достаточно гладко. На Винде есть вопросы.

Дальше следующий нюанс. Подключение к Винде будет через Remote Desktop Protocol (RDP) - это довольно просто и у вас на экране будет просто интерфейс Винды (с Мака тоже можно).

А подключаться к Убунте придется через SSH. Для этого есть программка PUTTY (работает на всех операционках). С ней нужно научиться работать, а точнее следовать инструкциям, где указать маленький pem-файл авторизации, который вам дадут при создании сервака.
На сайте не указано, но утилита WinSCP прекрасно работает с файлами авторизации - это типа Total Comander - незаменимая вещь для закачки и скачивания файлов с сервера.

Так как мне нужна была видеогенерация, то я просто выбрал Линукс-сервер с последней CUDA 12.8, и нажал Создать. Надо сказать, что создается сервак небыстро, минут 15.

А потом вы просто попадаете в командную строку Ubuntu.

Повторюсь, у меня был опыт, но все равно понадобилось время(деньги), чтобы понять, что надо доставить, прежде чем разворачивать собственно WAN.

Дальше я просто запустил их же Gradio интерфейс и бросился тестировать в окне браузера.

Итого:
1. Что понравилось.
Все на русском с понятными справками.
Интернет на сервере ОЧЕНЬ быстрый.
Можно выбрать предустановленный Комфи и других.
Можно сохранять состояние сервера и возвращаться в это состояние после повторного подключения.
Можно прозрачно видеть за что и когда заплачено.

2. Что не понравилось.
Сервер стартует довольно долго. Но я не сравнивал с другими сервисами. Приходится постоянно поглядывать в окно браузера на статус. А если отвлекся, то можно пропустить момент активации и начала тарификации.

Хочется предустановленных Ваню с Хуней.

Теперь советы по экономии.

1. Там есть два режима остановки сервака: STOP и SHELVE. Так вот, STOP не останавливает тарификацию, а лишь снижает ее (вы все равно платите за аллокацию ресурса). Чтобы полностью остановить сервак и не платить за простой, надо делать SHELVE - класть на полку (хибернация для виндоводов). Если отойти чай заварить, то можно и застопить, а если закончить работу на пару часов, то на полку.

2. Потренируйтесь устанавливать то, что будете использовать где-то еще. Например на домашнем компе. Убедитесь, что все заводится, пройдите путь до успешного запуска и вылетания по нехватке памяти, например. Тратить серверное время на установку пакетов и коррекции возникающих ошибок - неоптимально. Если не на чем, сделайте сервак на самой дешевой карте, потренируйтесь там, а потом уже поднимайте монстра. У вас должен быть сценарий действий на руках, а не следование инструкциям с гитхаба, на которые уходят иногда часы. Я угрохал несколько часов на установку Flash Attention 3, а мог бы подготовиться заранее и почитать интернетик (кстати помог на итоге Грок 3).

3. На Убунте вам захочется сохранять окружение среды, всякие env, пути и другие настройки. Для этого есть утилита tmux. Вернет вас туда, откуда вы ушли при деактивации сервака.

4. С Комфи - отдельная история, это не веб-приложение, к нему не обратишься по IP адресу или Градио-ссылке. Киньте пару (сотен) звезд, расскажу как настроить PUTTY, чтобы видеть морду Комфи с сервака у себя на компе

5. Используйте WinSCP, вам же надо выкачивать свои генерации.

@cgevent
465👍51🔥109👎3🙏2