Метаверсище и ИИще
47.1K subscribers
5.99K photos
4.45K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Квази-3Д-генерация. И квази-ретопология.

Берете картинку, открываете Google AI Studio (бесплатно), берете модель 2.0 Flash или 2.0 Flash Thinking, даете ей на вход свою картинку и просите:
edit this image to generate with Imagen3 a 3d wireframe representation (as image) of every unique object and subject in this scene. it should look like a blender 3d viewport with wireframe mode turned on.


Гугл выдает вам, грубо говоря, wireframe render.

Он сам сегментирует объекты, честно пытается представить их топологию в 3Д и выдает вам варианты.

Скажу заранее, вам придется с ним как следует поругаться, прежде чем он что-то начнет выдавать. Например, сначала попросите сгенерить просто любую картинку.

Еще раз, это просто 2Д-картинка. Тут нет 3Д модели.

Но очень интересно смотреть, как он "понимает" сцену.

Я сгенерил бутылку на столе(первая картинка) - сцена простая, но вы можете его помучить на более сложных сценах. Обратите внимание на топологию стола и окна на второй картинке.

@cgevent
223👍18😁3
Заканчиваем 3Д-марафон эпическим сравнением 3Д-генераторов.

От самого Энди Прайса - Блендор Гуру.

Поглядите картинки, они красноречивы сами по себе.
Там правда есть момент, Энди не юзал Rodin Pro, за что ему насовали в коментах. Потом исправился, но не на всех тестах.

А я просто переведу твит Энди, так как сильно согласен с ним насчет редакитруемости и топологии.

Несколько тестов, чтобы понять, стоит ли художникам беспокоиться об искусственном интеллекте.

Честно говоря, ИИ стал очень хорош (особенно Prism:
https://3daistudio.com). Но редактирование еще долго будет оставаться его главной проблемой. Кашеобразные(messy) сетки означают, что даже небольшие исправления требуют дорогостоящего ретопа.

Лучше всего ИИ справляется с непрозрачными, гладкими формами, которые часто встречаются в датасетах (автомобили, люди и т.д.), и хуже всего - со сложными объектами с мелкими деталями (деревья и т.д.)

Один из навыков, который будет очень ценен в будущем, - это ретоп и текстурирование. Если вы хотите повысить квалификацию, изучите любой существующий сегодня рабочий процесс по очистке фотограмметрии, потому что это, по сути, одно и то же.

Или сосредоточьтесь на "hero assets". Все, что находится близко к камере, должно быть точным, а AI-модели таковыми не является.

К игровым активам также предъявляются гораздо более сложные требования (UV-пространство, герметичные сетки, оптимизированные шейдеры), и я сомневаюсь, что ИИ сможет решить это в течение некоторого времени.


https://x.com/andrewpprice/status/1901678647850717638

@cgevent
🔥34👍155😱2
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
PikaSwaps как виртуальная примерочная. Вполне возможно при спросе Pika смогут вывести этот продукт в отдельный сервис. Kling так и сделал с Virtual Try-On.

Твит
👍414👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Облачные сервисы для аренды GPU и генерации всего.

Я уже проводил опрос про аренду GPU и по итогам нарисовалась тройка лидеров:
Runpod.io
Immers.cloud
Vast.ai

Я решил протестировать юзабилити и заодно поглядеть, как можно оптимизировать собственное поведение, чтобы экономить.

У меня в основном задачи, связанные с больше с быстрым тестированием и микроресерчем, чем с выстраиванием фиксированного пайплайна, поэтому мой опыт может подойти не всем, но я постарался вынести универсальные полезные выводы.

Взял довольно нагрузочную задачу связанную с генерацией видео в WAN, пошел на Immers.cloud и зашел сразу с козырей - аренда H100. Дело в том, что с выходом новых опенсорсных моделей, я прежде всего стараюсь тестировать модель "из коробки", не дожидаясь квантизации, оптимизации, адаптации под Комфи - хочется смотреть на непожатое качество и чистые, так сказать, возможности модели. Как правило, это тестирование в командной строке или в интерфейсе Gradio (типа как в Фордже), который не требует шаманства с Комфи и установок десятка дополнительных нод и выводка ужатых моделей.

WAN поддерживает технологию FlashAttention 3, которая работает только на картах с архитектурой Hopper (H100, H800).

Было интересно посмотреть на прирост, точнее на уменьшение времени генерации.

Давайте сразу приведу цифры, а потом изложу историю тестирования.

Тестировал модель Wan Image2video 14B в разрешении 480р, 5 секунд, 10 шагов, потребление - 70 гиг.

На карте A100 генерация шла со скоростью 20 секунд на итерацию, всего 3:24 минуты.
На карте H100 с Flash Attention 2 - 14 секунд на итерацию, всего 2:20 минуты.
На карте H100 с Flash Attention 3 - 10 секунд на итерацию, всего 1:48 минуты.


В общем выигрыш примерно в полтора раза, как и написано в бумаге.

Теперь, про опыт с immers.cloud - читаем следующий пост.

@cgevent
👍24🔥64🙏2
Теперь, про опыт с immers.cloud

Интерфейс на русском, это довольно большой плюс, ибо информации, чтобы сделать нужный выбор требуется довольно много, но везде есть минисправка.
Проще всего сразу тыкать в GPU, там выбирать сопутствующее железо (оперативка, диск - на цену не сильно влияют, брал по макс).
И можно сразу выбрать предустановленное(это плюс)

Тут сразу нюанс, у меня есть опыт работы с Линуксом, в чем мне сильно помог год назад chatGPT. Поэтому если выбирать машину с Убунтой, то у вас сразу может быть сервер установленным ComfyUI, Forge, Foocus и даже Automatic. Stable Diffusion и FLUX. Видеогенераторов пока нет.
Это может сильно сэкономить время, а оно стоит денег.

Что будет, если создать Windows Server - мне пока неведомо. Большинство новых моделей по умолчанию работают на Убунте и установка доп пакетов происходит там достаточно гладко. На Винде есть вопросы.

Дальше следующий нюанс. Подключение к Винде будет через Remote Desktop Protocol (RDP) - это довольно просто и у вас на экране будет просто интерфейс Винды (с Мака тоже можно).

А подключаться к Убунте придется через SSH. Для этого есть программка PUTTY (работает на всех операционках). С ней нужно научиться работать, а точнее следовать инструкциям, где указать маленький pem-файл авторизации, который вам дадут при создании сервака.
На сайте не указано, но утилита WinSCP прекрасно работает с файлами авторизации - это типа Total Comander - незаменимая вещь для закачки и скачивания файлов с сервера.

Так как мне нужна была видеогенерация, то я просто выбрал Линукс-сервер с последней CUDA 12.8, и нажал Создать. Надо сказать, что создается сервак небыстро, минут 15.

А потом вы просто попадаете в командную строку Ubuntu.

Повторюсь, у меня был опыт, но все равно понадобилось время(деньги), чтобы понять, что надо доставить, прежде чем разворачивать собственно WAN.

Дальше я просто запустил их же Gradio интерфейс и бросился тестировать в окне браузера.

Итого:
1. Что понравилось.
Все на русском с понятными справками.
Интернет на сервере ОЧЕНЬ быстрый.
Можно выбрать предустановленный Комфи и других.
Можно сохранять состояние сервера и возвращаться в это состояние после повторного подключения.
Можно прозрачно видеть за что и когда заплачено.

2. Что не понравилось.
Сервер стартует довольно долго. Но я не сравнивал с другими сервисами. Приходится постоянно поглядывать в окно браузера на статус. А если отвлекся, то можно пропустить момент активации и начала тарификации.

Хочется предустановленных Ваню с Хуней.

Теперь советы по экономии.

1. Там есть два режима остановки сервака: STOP и SHELVE. Так вот, STOP не останавливает тарификацию, а лишь снижает ее (вы все равно платите за аллокацию ресурса). Чтобы полностью остановить сервак и не платить за простой, надо делать SHELVE - класть на полку (хибернация для виндоводов). Если отойти чай заварить, то можно и застопить, а если закончить работу на пару часов, то на полку.

2. Потренируйтесь устанавливать то, что будете использовать где-то еще. Например на домашнем компе. Убедитесь, что все заводится, пройдите путь до успешного запуска и вылетания по нехватке памяти, например. Тратить серверное время на установку пакетов и коррекции возникающих ошибок - неоптимально. Если не на чем, сделайте сервак на самой дешевой карте, потренируйтесь там, а потом уже поднимайте монстра. У вас должен быть сценарий действий на руках, а не следование инструкциям с гитхаба, на которые уходят иногда часы. Я угрохал несколько часов на установку Flash Attention 3, а мог бы подготовиться заранее и почитать интернетик (кстати помог на итоге Грок 3).

3. На Убунте вам захочется сохранять окружение среды, всякие env, пути и другие настройки. Для этого есть утилита tmux. Вернет вас туда, откуда вы ушли при деактивации сервака.

4. С Комфи - отдельная история, это не веб-приложение, к нему не обратишься по IP адресу или Градио-ссылке. Киньте пару (сотен) звезд, расскажу как настроить PUTTY, чтобы видеть морду Комфи с сервака у себя на компе

5. Используйте WinSCP, вам же надо выкачивать свои генерации.

@cgevent
465👍51🔥109👎3🙏2
Комфи на удаленной машине.

Тут гораздо более умные подписчики советуют накатить VS Code или небрежно поднять на серваке nginx как прокси.

Однако, я ненастоящий сварщик, поэтому просто лезу в PuTTy: Connections->SSH->Auth->Tunnels
Source Port = 7899 (тут вы сами придумываете)
Destination = 127.0.0.1:8188 (а вот тут 8188 - это номер порта, который вам показал Комфи при запуске на сервере в командной строке или вы задали при запуске Комфи, например "python main.py --port 8190")

Жмете Add и потом просто коннектитесь к серверу (вы же задавали это для своего соединения с сервером, выбрав его в разделе Sessions и нажав Load).

Запускаете на сервере Комфи (или любой другой сервис, отдающий номер порта), а у себя на локальной машине в браузере вбиваете:
http://127.0.0.1:7899/

И видите свой Комфи на сервере.

@cgevent
👍326🔥6
Forwarded from AI Product | Igor Akimov
This media is not supported in your browser
VIEW IN TELEGRAM
Красивое от Stability.ai - Stable Virtual Camera.
Теперь можно управлять перемещением камеры по вашей картинке. Всякие киношные эффекты.

Виртуальная камера - это цифровой инструмент, используемый в кинематографе и 3D-анимации для захвата и навигации по цифровым сценам в реальном времени. Stable Virtual Camera основывается на этой концепции, сочетая привычное управление традиционными виртуальными камерами с мощью генеративного ИИ для обеспечения точного и интуитивно понятного контроля над 3D-видео.

Stable Virtual Camera предлагает расширенные возможности для создания 3D-видео, включая:

Динамическое управление камерой: Поддержка пользовательских и предустановленных траекторий (360°, Lemniscate, Dolly Zoom, Spiral, Pan, Move и другие).
Гибкие входы: Генерирует 3D-видео как из одного входного изображения, так и из 32.
Множество соотношений сторон: Создает квадратные, портретные, альбомные и пользовательские соотношения сторон, не требуя дополнительного обучения.
Генерация длинного видео: Сохраняет 3D-последовательность до 1 000 кадров.
Код открыт, но лицензия некоммерческая.

Подробнее - https://stability.ai/news/introducing-stable-virtual-camera-multi-view-video-generation-with-3d-camera-control

Код - https://github.com/Stability-AI/stable-virtual-camera
Рисерч - https://static1.squarespace.com/static/6213c340453c3f502425776e/t/67d9989ba4ff4454cae891e0/1742313633904/stable-virtual-camera.pdf
🔥25😱2518👍10👎2
This media is not supported in your browser
VIEW IN TELEGRAM
На этой неделе все немного взбесились в области 3Д. GDC на дворе

В общем Хуньянь бахнул Hunyuan 3D 2.0 Turbo.

Это ускоренная в ТРИДЦАТЬ РАЗ версия 3Д-генератора от Хуньянь, анонсированного позавчера.

Скоро обещают код.

@cgevent
🔥49👍11😱61😁1
Media is too big
VIEW IN TELEGRAM
Теперь вам есть чем озвучивать ваши видосы.

Anything-to-Audio генерация.

Посмотрите видео, оно хорошо иллюстрирует название.

Понятно, что генерация музыки там никакая, по сравнению с Суно.
Но вот видео2аудио выглядит интересно (хотя у нас уже есть mmaudio)
Еще интереснее выглядит Audio Inpainting
А еще круче video2music - под ваш видос пишется фоновая музыка
И досмотрите до конца - textandvideotoaudio

Клянутся выложить код, уже пообещали сделать это в коментах самому ХаггингФейсу.

Currently, both the model and dataset are under preparation, and we will release them as soon as they are ready.

https://zeyuet.github.io/AudioX/

@cgevent
3👍31🔥116👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Рендер или видео?

👍 - рендер
🔥 - видео

Обожаю ролики от Unitree

Кстати, знаете в чем засада со всеми такими робатами? Они жутко "топают". Ну то есть для них реально нужен очень прочный пол. Обратите внимание, как они ходят - они со всей дури плоско ставят "ступню" на пол (кроме Тесла-Бота). Знакомые распаковали такого в обычном офисе, и быстро выключили - он норовит разломать кафель или паркет. А уж соседям снизу кажется, что началось восстание отбойных молотков машин.

А еще цена в 16К превращается в 48К при звонке "с улицы". Говорят на 36К можно сторговаться.

@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥122👍48😁42😱1
Савви - боты без галлюцинаций

В службу поддержки пишет клиент и спрашивает, какие услуги бизнес предоставляет.
В ответ ИИ-бот дает неполный список услуг, путает прайсы, "забывает" расписание.
Было?
Больше не будет.


Это не сервис, а целая платформа для создания ИИ-ботов для бизнеса.
У Савви под капотом своя уникальная технология — Smart Bot Network. Плюс интеграция с CRM, мессенджерами и даже маркетплейсами

Smart Bot Network позволяет подключать боты-помощники к главному боту. В результате получается:

Каждый бот выполняет конкретную задачу.
Генерация — быстрая, ответ — максимально точный.
Риск забывания шагов инструкции — минимальный.
Систему легко адаптировать под конкретные задачи.

И, к тому же, можно на старте попробовать бесплатно.
😁22👎9👍7😱31
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini Canvas - у всех потихоньку появляется своя IDE.

Прямо в браузере.

Даже Сундар Пичай отметился твиттом по этому поводу.

Там еще появился Audio Overview, можно делать подкасты на основе загруженных документов и ну слушать отчеты.

Но самое интересное это генерация Mind Maps в Notebook LM

Вы что за меня и думать будете? Да!

https://blog.google/products/gemini/gemini-collaboration-features/

@cgevent
👍20🔥65
Stability.ai красиво стелет, но Stable Virtual Camera кринжово работает.

Продвинутые подписчики уже разобрали ее на части. В общем, мне кажется, можно расходиться (после SDXL)

Тем более после такого: 1080x576 = примерно 20 минут на 4090 на плавный орбит поворот. выше примеры не интерполированные для превиза - они появляются за минуту примерно (спасибо, Боря)

@cgevent
😁70😱7👍54🔥4