Метаверсище и ИИще
47.1K subscribers
5.97K photos
4.43K videos
45 files
6.88K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Меня кто-то спрашивал, можно ли генерировать изображения в 360 градусов.

Нанабана умеет.

Забирайте промпт и детали тут.

Промпт слишком большой и тут не помещаецца.

@cgevent
1🔥74👍157
Для взрослых мальчиков

Radiance: Professional HDR Image Processing Suite for ComfyUI

Набор нод для Комфи для композа и работы с HDR

- ARRI LogC3/4, S-Log3, V-Log, ACEScct,
- 30+ camera sensor, 20+ film stock,
- 3D LUTs (.cube, .3dl),
- Industry Scopes - Histogram, Waveform, Vectorscope
-GPU Accelerated - 10-50x faster with CUDA
-Camera Simulation - White balance, lens effects, presets
-EXR/HDR Support - Full OpenEXR read/write

И для пользователей Нюка:
- Nuke-style viewer for industry-grade color grading.

https://github.com/fxtdstudios/radiance

@cgevent
🔥29👍9
Ну, за Нолана.

Принес вам позалипать мозгорвущие видосы.

Еще в прошлой жизни, когда все упарывались по фотореалистичным рендерам (рендерман, ментал рей), мне всегда был интересен NPR (non-photirealistic render) и всякие туны, штрихи.
И первые нейронки были прекрасны - они как бы "не сходились" к нормальной картинке, а выходили чуть за рамки привычного.
Вот и сейчас, когда все фетишизируют реалистичность, мне интересно воздействие картинкой на зрителя чистой формой, минуя содержание или историю.

Держите промпт:
<instructions> Input Variable: [INSERT CITY] System rules: Act as a Reality Warping Artist. Generate a city that folds at a sharp 90-degree angle. Forensic Analysis: The Icons: Identify wide landmarks that can bridge the fold. The Transit: Cars acting as the connection between the two planes. The Base Element: Asphalt or cobblestone. Geometry: The Shape: An "L" shape on a massive scale. The ground is flat, then hits a "wall" which is actually just more city running vertically up. Construction: The "Wall" is fully populated with roads and buildings. Kinetic Flow: The Transition: Cars drive flat, then drive up the vertical wall seamlessly. Perspective: Shot from the corner looking into the fold. Foundation: The Edge: The sides of the city drop off into an infinite void or blue sky. Lighting & Atmosphere: Style: Mathematical Surrealism. Lighting: Hard shadows cast by the vertical city onto the flat city. Output: 8k Resolution, Photorealistic. </instructions>

А инструкции, как подставить сюда другие города и их особенности найдете тут.

Попробуйте сами, начните с Грока, можно в Клинге, а потом уж и в Veo.

@cgevent
4👍62🔥1810😁3👎2😱1
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Автор: Юрий AI Being

Ролик состоит из двух частей.

1️⃣ Первая часть — презентация персонажа. Я старался раскрыть его характер и манеру держаться. К производству подошёл подготовленным как смог: сделал разбивку на реплики, продумал ракурсы для монтажа, отрендерил всё в банане. Для эмоций персонажа подготовил отдельные чарты. Подготовка заняла ощутимую долю времени, но позволила КРАТНО сократить количество генераций и приблизиться к нужному результату максимально точно, хотя итог процентов на 20 и отличается от сториборда.

❗️Обилие длинных, «от и до» сгенерированных планов c репликами дало гибкость на монтаже и позволило удобно собирать фразы и манипулировать липсинком (я не использовал нейронки чтоб озвучить статичную голову, весь липсинк был взят из генераций самих сцен).

В итоге процесс прошёл комфортно.

2️⃣ Вторая часть — короткая заставка, предваряющая гипотетический мультфильм.

Начинал я работу именно с неё. Изначально я замахнулся на полноценный мини-мультфильм с сюжетом, но переоценил свои силы, не уделил должного внимания качеству и слабо проработал сценарий. :( По-хорошему, всё нужно было переделывать с нуля — а к этому я был не готов (объективно бы не нашёл в себе силы), но материал (генерации) явно имел потенциал и просился в работу. Поэтому я переосмыслил концепцию.

🎧 В Tunee создал фоновую музыку, и как только она легла на монтаж, стало понятно: нужно ускорять и резать гены, синхронизировать изображение с музыкой — и получится лёгкая, милая заставка, бодрая, динамичная и весёленькая. Так и вышло. А качество подтянул топазом.. как смог.

💬 Липсинк (первая часть) — для озвучки использовал бесплатные токены ElevenLabs, порадовала модель Eleven 3 ALPHA, функции Voice Remixing и Voice Design. Где-то был text-to-speech, где-то speech-to-speech на базе уже существующего материала. В ряде случаев приходилось добавлять «лишнюю» озвучку, если персонаж между репликами делал ненужные движения губами из-за кривизны генераций. Всё компоновал на монтаже.

В итоге, на мой взгляд, как липсинк, так озвучка получились очень натуральными, выразительными и довольно качественными — и именно это доставило мне особое удовлетворение.

🧰 В работе использовались:
Banana Pro – (в чате с гемини по подписке google pro) все генерации стартовых кадров и проработка персонажа

Chat GPT – (бесплатный тариф) финальный титр (логотип с названием мультика «Тяжёлая смена») никто лучше ГПТ не умеет это делать, на мой взгляд

Grok - (два бесплатных аккаунта) отмечу, что на создание первой части ролика (презентация персонажа) хватило генераций дневного бесплатного запаса, так как было точно ясно что нужно. Раз, раз.. и готово.

VEO – токенов 100-200 в Google Flow .. или около того, но я не уверен, что в нём был смысл, ощущение сложилось такое, что с VEO нужно было бороться, а с Grok сразу получилось танцевать, а не сражаться

Tunee – (бесплатный тариф) сделал два фоновых музыкальных оформления с первого раза, но я точно знал, на что эта сетка способна и промтил точно то, что хотел

Topaz (локальный) – (бесплатно) вторая часть ролика, я не думал, что работа будет большой и не уследил за качеством.. и потому добирал его постобработкой, как мог

ElevenLаbs – (бесплатные токены) озвучка

PS – правки деталей генераций, закрашивание логотипа бананы и прочее..

CapCut - монтаж

Если кому-то интересно про время:
На всё про всё ушло около 24 часов, т.е. три рабочие смены. Но львиная доля времени ушла на вторую часть ролика, которая не имела сценария и по сути это была «игра в песочнице» до тех пор, пока я не увидел ясно то, что буду делать. Мне кажется, что при нормальном подходе, наличии скрипта и раскадра тут чистой работы часов на 12-16.

Если есть какие-то вопросы любого толка, отвечу тут или в личку (
@Swordsandspears ), не стесняйтесь, пишите.

@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60👎246🔥3😁1
Инструменты для деплоя DL-моделей

DL-инженеру уже недостаточно учить модели в Jupyter-тетрадках, чтобы соответствовать запросам индустрии. Важно уметь доводить их до пользователей. В этот четверг на открытой онлайн-лекции команда DeepSchool покажет, как выглядит путь модели после обучения!

На лекции вы узнаете:

- когда стоит использовать Jupyter-ноутбуки, а когда нет
- как подготовить репозиторий моделинга
- варианты конвертации модели
- как обернуть инференс в http-приложение
- чем помогает Model Serving
- как деплоят приложения и автоматизируют этот процесс

А в конце представят курс «DLOps». Это программа про то, как ML/DL-инженеру писать поддерживаемый код вне Jupyter-ноутбуков, оборачивать модели в сервисы, версионировать эксперименты и данные, настраивать CI/CD и автоматизировать рутину.
Если оставите заявку до 18 января, то сможете присоединиться со скидкой 20%!🔥

🙋‍♂️Спикеры лекции:

— Дмитрий Раков — руководитель ML в НИИАС, делает perception-алгоритмы для беспилотных поездов

— Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer KoronaPay

Дата и время: 22 января, чт, 18:00 МСК

Регистрируйтесь по ссылке и приходите в четверг вечером!
👎12😁21👍1
This media is not supported in your browser
VIEW IN TELEGRAM
HeartMuLa: A Family of Open Sourced Music Foundation Models

Тут у нас новый опенсорсный генератор музики.

И знаете, что они пишут у себя в Гитхабе?

"Наша последняя внутренняя версия HeartMuLa-7B достигает сопоставимой с Suno производительности с точки зрения музыкальности, точности воспроизведения и управляемости."


Наглецы, конечно.

Они как-то быстро убрали ссылку на демо, поэтому придется ставить самим, чтобы вывести их на чистую воду.
Благо для этого уже собрали Комфи ноду:
https://github.com/benjiyaya/HeartMuLa_ComfyUI

А сам код и ссылки на веса и разные приблуды для работы с лирикой находятся тут:
https://github.com/HeartMuLa/heartlib

А вот сравнить их с Суно (4.5) и разными позабытыми названиями типа: YUE, DiffRhythm2, Mureka V7.6, ACE-Step можно тут:
https://heartmula.github.io/

Я скептичен...

@cgevent
👍9😁5👎21
Принес вам три обновленных MCP для Блендора, Юнити и Унриала

Залипательно наблюдать, как новые нормальные моделлеры покрикивают в монитор.

https://github.com/ahujasid/blender-mcp

https://github.com/CoplayDev/unity-mcp

https://github.com/ChiR24/Unreal_mcp

@cgevent
🔥30👎42😁2😱2
Энциклопедия LTX.

Для тех, кто локально генерит видосы.

Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу

В общем ЛТХ Клондайк

https://github.com/wildminder/awesome-ltx2

@cgevent
99🔥40👍107🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
Сервисы уже давно могут генерить нам бесконечные плейлисты, которые в реальном времени меняются под наши лайки/дизлайки, настроение, занятия

Но если задаться вопросом «как это работает», ответ лежит далеко не в ИИ. Возьмём потоки «Нейромузыки». Это проект Яндекс Музыки, появившийся задолго до популярных моделей генерации композиций.
Это архитектура, похожая на модульный синтезатор. Поток собирается из заранее записанных лупов. Лупы — разных жанров, протегированные по тональностям, темпу, типу звучания. Сверху к ним — модель, которая умеет достраивать нотные партии под контекст. По сути, ИИ не пишет трек — он дирижирует кубиками, которые заранее сделал человек.

Почему так?

Потому что полноценная генерация аудио в реальном времени — дорого. Очень. VST-плагины сожрут любой сервер, а если в потоке появится треск — пользователь выключит музыку навсегда.

Короче, мы живём в моменте, когда телефон стал персональным диджеем. Советую не принимать такие крутые штуки за данность, а обращать на них внимание и разбираться в них глубже.

Например, нормальное человеческое объяснение этой темы я нашёл не в мануалах и не в глубинах Хабра, а в канале Журнала 8БИТ, команда Яндекс Образования умеет доступно разбирать инженерные штуки — и тем более рассказывать о своих разработках.

Очень рекомендую полистать канал — там много интересного.

Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2VtzqvB5t6o
👎5811👍6
Израильтяне продолжают удивлять.

LTX заколлабились с Eleven Labs в области звука и выкатили Audio-to-Video.


Пока нашел только тут:
https://app.ltx.studio/ltx-2-playground/a2v
Но народ уже крутит ручки в комфи.

Это не просто липсинк, это как бы character-sync.

Берете аудио, потом картинку (i2v), потом пишете промпт. Дальше Audio-to-Video оживляет картинку не только по промпту (в котором теперь не надо писать, что скажет персонаж), но с учетом анализа аудио.

Из звука извлекается не только речь, но и ритм, и эффекты. Под этот ритм персонажи и пляшут, и машут. А не только губами ворочают.

Интересно, что он распознает два (может больше) трека для речи и назначает их на разных персонажей (а не как раньше, когда все говорили и двигались одинаково).

Выглядит убойно, если бы не качество видео((

Тут бы выпить за инфлюенсеров в очередной раз, но об этом через пост.

@cgevent
30🔥26👍8👎2
Media is too big
VIEW IN TELEGRAM
Audio as input for LTX2 для Comfy

Все эти персонажи и мемы оживлены по одной входной картинке и звуку.

Мне больше всего зашел дед с 0:53. Нейродед, чо.

Воркфлоу тут:
https://github.com/purzbeats/purz-comfyui-workflows/blob/main/ltx2/ltx2-audio_to_video_extension_5x.json

@cgevent
😁256👍1
Higgsfield AI Influencer Studio

Ну за инфлю-мать-их-енсеров. Не чокаясь.

Не знаю какие нейростероиды жрут в Хиггсе и сколько у них там вайбкодинга в быту, но они бахают продукт за продуктом. Причем каждый из этих типапродуктов может быть отдельным стартапом.
Впрочем так раньше и было со стартапами, но в последнее время смертность стартапов немного превышает рождаемость (стараниями Гугла и других взрослых игроков), поэтому Хиггсы делают такой зонтик для всего, что нейрошевелится.

Всем уже приподнадоели нейро-девочки с губами до земли и грудью до небес, поэтому Хиггсы чуют поляну и выкатывают инфлюенсеро-станок с перосонажами слегка "за рамками" привычных шаблонов.

Мне вот зашла квадратная голова с губами (пережиток прошлого). Кому-то ящеры зайдут или мамонты.

Любопытно, что там есть параметр "Вирусность". Это прям примета времени - контент или эстетика не важны, важна вирусность. Хиггсы умело эксплуатируют эту идею.

Ну вопрос удобства конструирования своих персонажей. С максимальной вирусностью, кого нынче трясет креативность..

@cgevent
😁35👎8🔥7😱32👍1