Метаверсище и ИИще
48K subscribers
6.05K photos
4.52K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Продолжаем холиварить за Суно и Удио.
Судя по коментам мы вышли на аналогию (неточную и неполную, как обычно) между Midjourney (Suno, который делает красиво и сразу, но не точно) и .. тут наверное корректно написать не Stable Diffusion, a SD3. Ибо SDXL также как и Midjourney не сильно слушается промпта, а вот sd3 или Kolors - это уже новый уровень в понимании того, что хочет пользователь.
Midjourney vs SD3 - тоже будет некорректно, ибо Udio выдает убойное качество звука.
Так что пусть будет Midjourney VS Ideogram.

И я вытащу из коментов вот такой вот выпуклый пример и процитирую подписчика, а вы послушайте сами и сделайте выводы. Я пристегнул Клинга к трекам, чтобы еще и атмосферу почувствовать. Мой вывод: Udio понимает промпт лучше.


"Рок, гроул, скрим и т.д. это все прикольно. А сможет ли железный дружок понимать в контрапункты Морриконе или Луиса Бакалова например.
Ну и задал им одинаковый промт, не сильно парясь. Посмотреть что обе системы смогут сделать сами с первого раза.
Так вот суно не то что идет, а летит на 3 известные буквы)
Так-то с тем что дает Udio с первого раза уже если немного поработать получится прямо топчик.
Промпт использовался для обеих систем одинаковый. Кому интересно можете сами потестить

An epic Italian spaghetti western of 70s movie main theme, orchestra, electric guitar

Многие скажут так может промт не тот и т.д. Тогда значит Udio понимает текста лучше)"


P.S. Suno это Dire Straits и Марк Нопфлер какой-то...(прим админа)

@cgevent
👍29👎3
Forwarded from Denis Sexy IT 🤖
В тиктоке постепенно нормализуется мысль «скопируй вашу переписку в ChatGPT и спроси совета». Я специально сходил к ней в аккаунт, почитать комментарии и там обычные люди не из ИТ-бабла, из глубинки США:

Почти все в восторге и скармливают скриншоты переписок с парнями для советов о том как лучше поступить / валидировать чувства

Мне кажется, когда в iOS у каждого американца появится доступ к ChatGPT, мы еще офигеем с вами от того какие применения ей найдут «в народе»

Если честно, я сам пользовался пару раз ChatGPT для разбора ситуаций в отношениях и планирую так делать дальше: помогает, когда кажется, что я поступил не очень и можно было бы быть получше как партнер

ChatGPT настолько хорошо понимает наши социальные проблемы и сами проблемы настолько оказались простыми, что даже AGI не нужен для этого, лол
🔥45👎39👍17
This media is not supported in your browser
VIEW IN TELEGRAM
Стабильные спагетти получены в застенках Runway ML

Как пишет нам Кристобаль: Temporally stable depth and normal-mapped spaghetti has been achieved internally

Если поглядеть раз пять, то, конечно, можно заметить фликеринг на левом плече и еле заметное мерцание фона.
Но спагетти! Ровные и чоткие, как пацаны.
Вот демонстрация того, что видеомодели мыслят объектами и не разменивают токены на пиксели, как это делают Krea и AnimatedDiff - попробуйте там повторить такой трюк.

Ну и для тех, кто в теме - вам приезжает еще и глубина с картами нормалей. Делайте, что хотите в композе.
https://x.com/c_valenzuelab/status/1815396599180197988

P.S. Ну, за спагетти вестерны. Идиотская, но местами смешная шутка.

@cgevent
🔥29👍11
TTS Arena

Лидерборд генераторов речи по тексту

#comparison #shootout #leaderboard #text2speech #tts
👍23
Stable Diffusion on AMD

Уже писал, что Интел сообразила свой клиент для Stable Diffusion - отдельное приложение для генерации на карточках Intel Arc.

Теперь вот подзаброшенный клиент Amuse от AMD вышел из тени - полностью локальная установка и генерация для тех, кого угораздило купить AMD графику (к процессорам нет вопросов).

AMD XDNA Super Resolution

Single executable

No dependencies

Auto configuration and model selection
Paint to Image
Drawing to Image
Create your own AI filters
Multi-stage, ONNX based pipeline (Stable Diffusion, Control Nets, Feature Extractors)


После установки докачивает 11 гигов SDXL-related файлов.

Только для Виндовс, Линукса нет.

И да, там зашит NSFW фильтр.

Для кого это все тогда?
(из интересного там собственный апскейлер)

https://community.amd.com/t5/ai/introducing-amuse-2-0-beta-with-amd-xdna-super-resolution-a/ba-p/697374

Скорость можно подсмотреть на скриншоте
👍19👎2🔥2
В RunwayML GEN-3 завезли image2video.
Теперь можно полноценно сравнивать Луму, Клинг и Ген-3.
Если сравнивать по скорости - очень и очень быстро (сейчас).
Если по цене, очень и очень и очень дорого.

У меня пока ощущение, то ГЕН-3 хорошо делает VFX, то есть всякие , водичку, дымы, огоньки и прочую пиротехнику.

Если у вас еще осталась хоть капля кредитов, го тестировать.

https://app.runwayml.com/

@cgevent
🔥19👍15
В продолжение разговора про VFX и видеогенераторы.
Оказывается GEN-3 дает довольно консистентную картинку с точки зрения, скажем так, оптики камеры (перспектива, FOV). Настолько неплохую, что ея можно оттрекать (например в Синьке), навалить на это 3Д и отправить в Афтер.
И получить уже не просто "гляньчо схенерило", а композный шот, которые сильно обогащает картинку.

Поглядите, что вытворяет Graeme Shepherd в Синьке.

Если вы не знаете, что такое оттрекать - это имея только видео на входе, вытащить из него трехмерное движение камеры, которой это видео снималось. Чтобы потом присунуть это движение в 3Д-пакет и навалить сверху новых объектов (если грубо).

Посыл автора был такой: я, конечно, могу наваять весь этот бетонный ангар в Синьке, но пусть ИИ тоже поработает.

@cgevent
👍35🔥27
Аватары, которых прямо сейчас показывает Хуанг на Сигграфе выглядят очень круто.
Их главное преимущество - это готовый цельный продукт. Они уже засетаплены в единое решение, где под капотом ТОЛЬКО решения Нвидия (от LLM до 3Д- или нейро- движка). Это продукт, а не говно и палки с гитхаба, заваренные кипятком питонга.
Их главный минус - это намертво закрытое решение. Облачное притом.

Перед этим он показал гибридную симуляцию 3Д-миров: промпт используется сначала для эмпирического поиска по базе 3Д, а потом ИИ делает композицию по промпту и приваливает нейрорендеринг сверху. Все это на базе USD и, конечно, внутри Омниверса.

Поглядите завтра тут:
https://youtu.be/H0WxJ7caZQU

Мотайте на 36:15 - 3д миры
И на 44:15 - аватары

@cgevent
🔥30👍12👎2
Композ и ротоскоп никогда не будут прежними. Все это работает теперь и с видео. Это Метачка бахнулa SAM2 - Segment Anything Model for videos and images
Читаем ниже, а видосы смотрим тут
⬇️⬇️⬇️⬇️⬇️⬇️⬇️
🔥26