Метаверсище и ИИще – Telegram

Метаверсище и ИИще

47.1K subscribers

5.97K photos

4.43K videos

45 files

6.88K links

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn

Download Telegram

About

Blog

Apps

Platform

Метаверсище и ИИще

47.1K subscribers

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Меня кто-то спрашивал, можно ли генерировать изображения в 360 градусов.

Нанабана умеет.

Забирайте промпт и детали тут.

Промпт слишком большой и тут не помещаецца.

@cgevent

1🔥74👍15❤7

7.3K viewsSergey Tsyptsyn ️️, 10:48

Метаверсище и ИИще

Для взрослых мальчиков

Radiance: Professional HDR Image Processing Suite for ComfyUI

Набор нод для Комфи для композа и работы с HDR

- ARRI LogC3/4, S-Log3, V-Log, ACEScct,
- 30+ camera sensor, 20+ film stock,
- 3D LUTs (.cube, .3dl),
- Industry Scopes - Histogram, Waveform, Vectorscope
-GPU Accelerated - 10-50x faster with CUDA
-Camera Simulation - White balance, lens effects, presets
-EXR/HDR Support - Full OpenEXR read/write

И для пользователей Нюка:
- Nuke-style viewer for industry-grade color grading.

https://github.com/fxtdstudios/radiance

@cgevent

🔥29👍9

6.83K viewsSergey Tsyptsyn ️️, 10:55

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Ну, за Нолана.

Принес вам позалипать мозгорвущие видосы.

Еще в прошлой жизни, когда все упарывались по фотореалистичным рендерам (рендерман, ментал рей), мне всегда был интересен NPR (non-photirealistic render) и всякие туны, штрихи.
И первые нейронки были прекрасны - они как бы "не сходились" к нормальной картинке, а выходили чуть за рамки привычного.
Вот и сейчас, когда все фетишизируют реалистичность, мне интересно воздействие картинкой на зрителя чистой формой, минуя содержание или историю.

Держите промпт:
<instructions> Input Variable: [INSERT CITY] System rules: Act as a Reality Warping Artist. Generate a city that folds at a sharp 90-degree angle. Forensic Analysis: The Icons: Identify wide landmarks that can bridge the fold. The Transit: Cars acting as the connection between the two planes. The Base Element: Asphalt or cobblestone. Geometry: The Shape: An "L" shape on a massive scale. The ground is flat, then hits a "wall" which is actually just more city running vertically up. Construction: The "Wall" is fully populated with roads and buildings. Kinetic Flow: The Transition: Cars drive flat, then drive up the vertical wall seamlessly. Perspective: Shot from the corner looking into the fold. Foundation: The Edge: The sides of the city drop off into an infinite void or blue sky. Lighting & Atmosphere: Style: Mathematical Surrealism. Lighting: Hard shadows cast by the vertical city onto the flat city. Output: 8k Resolution, Photorealistic. </instructions>

А инструкции, как подставить сюда другие города и их особенности найдете тут.

Попробуйте сами, начните с Грока, можно в Клинге, а потом уж и в Veo.

@cgevent

4👍62🔥18❤10😁3👎2😱1

7.02K viewsSergey Tsyptsyn ️️, 11:15

Метаверсище и ИИще

Media is too big

VIEW IN TELEGRAM

Нейропрожарка

Автор: Юрий AI Being

Ролик состоит из двух частей.

1️⃣ Первая часть — презентация персонажа. Я старался раскрыть его характер и манеру держаться. К производству подошёл подготовленным как смог: сделал разбивку на реплики, продумал ракурсы для монтажа, отрендерил всё в банане. Для эмоций персонажа подготовил отдельные чарты. Подготовка заняла ощутимую долю времени, но позволила КРАТНО сократить количество генераций и приблизиться к нужному результату максимально точно, хотя итог процентов на 20 и отличается от сториборда.

❗️Обилие длинных, «от и до» сгенерированных планов c репликами дало гибкость на монтаже и позволило удобно собирать фразы и манипулировать липсинком (я не использовал нейронки чтоб озвучить статичную голову, весь липсинк был взят из генераций самих сцен).

В итоге процесс прошёл комфортно.

2️⃣ Вторая часть — короткая заставка, предваряющая гипотетический мультфильм.

Начинал я работу именно с неё. Изначально я замахнулся на полноценный мини-мультфильм с сюжетом, но переоценил свои силы, не уделил должного внимания качеству и слабо проработал сценарий. :( По-хорошему, всё нужно было переделывать с нуля — а к этому я был не готов (объективно бы не нашёл в себе силы), но материал (генерации) явно имел потенциал и просился в работу. Поэтому я переосмыслил концепцию.

🎧 В Tunee создал фоновую музыку, и как только она легла на монтаж, стало понятно: нужно ускорять и резать гены, синхронизировать изображение с музыкой — и получится лёгкая, милая заставка, бодрая, динамичная и весёленькая. Так и вышло. А качество подтянул топазом.. как смог.

💬 Липсинк (первая часть) — для озвучки использовал бесплатные токены ElevenLabs, порадовала модель Eleven 3 ALPHA, функции Voice Remixing и Voice Design. Где-то был text-to-speech, где-то speech-to-speech на базе уже существующего материала. В ряде случаев приходилось добавлять «лишнюю» озвучку, если персонаж между репликами делал ненужные движения губами из-за кривизны генераций. Всё компоновал на монтаже.

В итоге, на мой взгляд, как липсинк, так озвучка получились очень натуральными, выразительными и довольно качественными — и именно это доставило мне особое удовлетворение.

🧰 В работе использовались:
Banana Pro – (в чате с гемини по подписке google pro) все генерации стартовых кадров и проработка персонажа

Chat GPT – (бесплатный тариф) финальный титр (логотип с названием мультика «Тяжёлая смена») никто лучше ГПТ не умеет это делать, на мой взгляд

Grok - (два бесплатных аккаунта) отмечу, что на создание первой части ролика (презентация персонажа) хватило генераций дневного бесплатного запаса, так как было точно ясно что нужно. Раз, раз.. и готово.

VEO – токенов 100-200 в Google Flow .. или около того, но я не уверен, что в нём был смысл, ощущение сложилось такое, что с VEO нужно было бороться, а с Grok сразу получилось танцевать, а не сражаться

Tunee – (бесплатный тариф) сделал два фоновых музыкальных оформления с первого раза, но я точно знал, на что эта сетка способна и промтил точно то, что хотел

Topaz (локальный) – (бесплатно) вторая часть ролика, я не думал, что работа будет большой и не уследил за качеством.. и потому добирал его постобработкой, как мог

ElevenLаbs – (бесплатные токены) озвучка

PS – правки деталей генераций, закрашивание логотипа бананы и прочее..

CapCut - монтаж

⏳Если кому-то интересно про время:
На всё про всё ушло около 24 часов, т.е. три рабочие смены. Но львиная доля времени ушла на вторую часть ролика, которая не имела сценария и по сути это была «игра в песочнице» до тех пор, пока я не увидел ясно то, что буду делать. Мне кажется, что при нормальном подходе, наличии скрипта и раскадра тут чистой работы часов на 12-16.

Если есть какие-то вопросы любого толка, отвечу тут или в личку ( @Swordsandspears ), не стесняйтесь, пишите.

@cgevent

Please open Telegram to view this post

VIEW IN TELEGRAM

👍60👎24❤6🔥3😁1

5.29K viewsSergey Tsyptsyn ️️, 11:55

Метаверсище и ИИще

Инструменты для деплоя DL-моделей

DL-инженеру уже недостаточно учить модели в Jupyter-тетрадках, чтобы соответствовать запросам индустрии. Важно уметь доводить их до пользователей. В этот четверг на открытой онлайн-лекции команда DeepSchool покажет, как выглядит путь модели после обучения!

На лекции вы узнаете:

- когда стоит использовать Jupyter-ноутбуки, а когда нет
- как подготовить репозиторий моделинга
- варианты конвертации модели
- как обернуть инференс в http-приложение
- чем помогает Model Serving
- как деплоят приложения и автоматизируют этот процесс

А в конце представят курс «DLOps». Это программа про то, как ML/DL-инженеру писать поддерживаемый код вне Jupyter-ноутбуков, оборачивать модели в сервисы, версионировать эксперименты и данные, настраивать CI/CD и автоматизировать рутину.
Если оставите заявку до 18 января, то сможете присоединиться со скидкой 20%!🔥

🙋‍♂️Спикеры лекции:

— Дмитрий Раков — руководитель ML в НИИАС, делает perception-алгоритмы для беспилотных поездов

— Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer KoronaPay

⏰Дата и время: 22 января, чт, 18:00 МСК

Регистрируйтесь по ссылке и приходите в четверг вечером!

👎12😁2❤1👍1

6.38K viewsSergey Tsyptsyn ️️, 13:01

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

HeartMuLa: A Family of Open Sourced Music Foundation Models

Тут у нас новый опенсорсный генератор музики.

И знаете, что они пишут у себя в Гитхабе?

"Наша последняя внутренняя версия HeartMuLa-7B достигает сопоставимой с Suno производительности с точки зрения музыкальности, точности воспроизведения и управляемости."

Наглецы, конечно.

Они как-то быстро убрали ссылку на демо, поэтому придется ставить самим, чтобы вывести их на чистую воду.
Благо для этого уже собрали Комфи ноду:
https://github.com/benjiyaya/HeartMuLa_ComfyUI

А сам код и ссылки на веса и разные приблуды для работы с лирикой находятся тут:
https://github.com/HeartMuLa/heartlib

А вот сравнить их с Суно (4.5) и разными позабытыми названиями типа: YUE, DiffRhythm2, Mureka V7.6, ACE-Step можно тут:
https://heartmula.github.io/

Я скептичен...

@cgevent

👍9😁5👎2❤1

6.43K viewsSergey Tsyptsyn ️️, 16:13

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Принес вам три обновленных MCP для Блендора, Юнити и Унриала

Залипательно наблюдать, как новые нормальные моделлеры покрикивают в монитор.

https://github.com/ahujasid/blender-mcp

https://github.com/CoplayDev/unity-mcp

https://github.com/ChiR24/Unreal_mcp

@cgevent

🔥30👎4❤2😁2😱2

6.86K viewsSergey Tsyptsyn ️️, 17:27

Метаверсище и ИИще

Энциклопедия LTX.

Для тех, кто локально генерит видосы.

Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу

В общем ЛТХ Клондайк

https://github.com/wildminder/awesome-ltx2

@cgevent

GitHub - wildminder/awesome-ltx2: All available LTX-2 models, encoders, workflows, LoRAs for ComfyUI

All available LTX-2 models, encoders, workflows, LoRAs for ComfyUI - wildminder/awesome-ltx2

99🔥40👍10❤7🙏2

9.55K viewsSergey Tsyptsyn ️️, 18:41

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Сервисы уже давно могут генерить нам бесконечные плейлисты, которые в реальном времени меняются под наши лайки/дизлайки, настроение, занятия

Но если задаться вопросом «как это работает», ответ лежит далеко не в ИИ. Возьмём потоки «Нейромузыки». Это проект Яндекс Музыки, появившийся задолго до популярных моделей генерации композиций.
Это архитектура, похожая на модульный синтезатор. Поток собирается из заранее записанных лупов. Лупы — разных жанров, протегированные по тональностям, темпу, типу звучания. Сверху к ним — модель, которая умеет достраивать нотные партии под контекст. По сути, ИИ не пишет трек — он дирижирует кубиками, которые заранее сделал человек.

Почему так?

Потому что полноценная генерация аудио в реальном времени — дорого. Очень. VST-плагины сожрут любой сервер, а если в потоке появится треск — пользователь выключит музыку навсегда.

Короче, мы живём в моменте, когда телефон стал персональным диджеем. Советую не принимать такие крутые штуки за данность, а обращать на них внимание и разбираться в них глубже.

Например, нормальное человеческое объяснение этой темы я нашёл не в мануалах и не в глубинах Хабра, а в канале Журнала 8БИТ, команда Яндекс Образования умеет доступно разбирать инженерные штуки — и тем более рассказывать о своих разработках.

Очень рекомендую полистать канал — там много интересного.

Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2VtzqvB5t6o

👎58❤11👍6

6.02K viewsSergey Tsyptsyn ️️, 07:03

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Израильтяне продолжают удивлять.

LTX заколлабились с Eleven Labs в области звука и выкатили Audio-to-Video.

Пока нашел только тут:
https://app.ltx.studio/ltx-2-playground/a2v
Но народ уже крутит ручки в комфи.

Это не просто липсинк, это как бы character-sync.

Берете аудио, потом картинку (i2v), потом пишете промпт. Дальше Audio-to-Video оживляет картинку не только по промпту (в котором теперь не надо писать, что скажет персонаж), но с учетом анализа аудио.

Из звука извлекается не только речь, но и ритм, и эффекты. Под этот ритм персонажи и пляшут, и машут. А не только губами ворочают.

Интересно, что он распознает два (может больше) трека для речи и назначает их на разных персонажей (а не как раньше, когда все говорили и двигались одинаково).

Выглядит убойно, если бы не качество видео((

Тут бы выпить за инфлюенсеров в очередной раз, но об этом через пост.

@cgevent

❤30🔥26👍8👎2

6.23K viewsSergey Tsyptsyn ️️, 11:15

Метаверсище и ИИще

Media is too big

VIEW IN TELEGRAM

Audio as input for LTX2 для Comfy

Все эти персонажи и мемы оживлены по одной входной картинке и звуку.

Мне больше всего зашел дед с 0:53. Нейродед, чо.

Воркфлоу тут:
https://github.com/purzbeats/purz-comfyui-workflows/blob/main/ltx2/ltx2-audio_to_video_extension_5x.json

@cgevent

😁25❤6👍1

7.53K viewsSergey Tsyptsyn ️️, 11:36

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Higgsfield AI Influencer Studio

Ну за инфлю-мать-их-енсеров. Не чокаясь.

Не знаю какие нейростероиды жрут в Хиггсе и сколько у них там вайбкодинга в быту, но они бахают продукт за продуктом. Причем каждый из этих типапродуктов может быть отдельным стартапом.
Впрочем так раньше и было со стартапами, но в последнее время смертность стартапов немного превышает рождаемость (стараниями Гугла и других взрослых игроков), поэтому Хиггсы делают такой зонтик для всего, что нейрошевелится.

Всем уже приподнадоели нейро-девочки с губами до земли и грудью до небес, поэтому Хиггсы чуют поляну и выкатывают инфлюенсеро-станок с перосонажами слегка "за рамками" привычных шаблонов.

Мне вот зашла квадратная голова с губами (пережиток прошлого). Кому-то ящеры зайдут или мамонты.

Любопытно, что там есть параметр "Вирусность". Это прям примета времени - контент или эстетика не важны, важна вирусность. Хиггсы умело эксплуатируют эту идею.

Ну вопрос удобства конструирования своих персонажей. С максимальной вирусностью, кого нынче трясет креативность..

@cgevent

😁35👎8🔥7😱3❤2👍1

6.63K viewsSergey Tsyptsyn ️️, 11:40