Метаверсище и ИИще
47.4K subscribers
6.02K photos
4.49K videos
46 files
6.93K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Проект «Ода активированному углю».

Манифест любви к возможностям ИИ, эстетике 80-х и абсурдному юмору. Новогодний хаос, доведенный до абсолюта, микс снгшного вайба, японских фильмов токусацу и старого доброго сюрреализма.

Продакшн: Zilant Pro
Режиссер, креатив, арт-дир: Арсений Кузнецов
ИИ-артист, монтаж: Артур Ахметов
Композитор, вокалист: Тимур Митронин

Меня зовут Арсений Кузнецов, я режиссер и сценарист.

https://vimeo.com/arsenysmith
https://www.instagram.com/arsenysmith/
https://xn--r1a.website/Frmmnd

В ноябре ко мне обратились мои друзья из продакшена Zilant Pro и предложили сделать творческий спецпроект к Новому Году.
Решили, что это должен быть ролик на тему праздников, с каким-нибудь всем известным элементом в центре сюжета, отсюда поступило предложение сделать ролик про Активированный уголь - как минимум забавный заход, нестандартный. Я ушел писать креатив (в этот процесс ИИ я не пускаю) и придумал подход, обыгрывающий ностальгические эмоции, а так же маскота - боевого голема из черного угля, сражающегося с монстрами, вдохновленного фильмами в жанре Токусацу, такими как Могучие Рейнджеры и Годзилла.

На этом проекте мы работали в тандеме с моим партнером Артуром Ахметовым, который выступил в качестве ИИ-артиста и режиссера монтажа. Я же отвечал за режиссуру, арт-дирекшен и креатив.
Это уже не первый мой большой проект сделанный в ИИ, о другом расскажу в следующий раз, поэтому понимание того как строить пайплайн уже было.

С момента утверждения креатива и до сдачи проекта прошло примерно 2 недели. Это была очень плотная, каждодневная работа.
Мы использовали связку ChatGPT + Midjourney + Higgsfield. Последний здесь был скорее как агрегатор, активно мы пользовались двумя инструментами - Нанобананой Про и Клингом О1.
Сперва делали генерации статики исходя из режиссерского сценария в банане, потом возвращали это в миджерни и перегенерировали в подобранном заранее стиле, после чего возвращали обратно в банану и доводили до ума там.
Как оказалось, тонкая работа с эстетиками и стилями пока что Банане не особо удается, так что Миджерни остается незаменимым.

У нас была подписка Creator, самая дорогая, поэтому весь ролик мы успели сделать используя безлимитные генерации. Клинг О1 очень хорошо справлялся с самыми разными задачами, хотя, конечно, иногда и с ним требуется генерить дубли десятками. Очень важно контролировать содержание промтов, потому что работая через ChatGPT зачастую в них могут оказываться неожиданные лишние элементы.
Самым сложным оказался последний пэкшотный кадр - в нем герой верхом на коне-торте скачет в светлое будущее в компании голема. Нужно было совместить сразу 3 сущности, поэтому мы поэтапно скрещивали их и добавляли в кадр.

Музыку, как и креатив, я не доверяю ИИ, считаю это слишком душевным и важным аспектом работы, так сказать. Поэтому я позвал в проект своего товарища, композитора Тимура Митронина, и он написал забористый саундтрек в духе паверметаллических мелодий из фильмов 80ых и проработал текст песни. Получилось очень заедающе, мы до сих пор напеваем эту мелодию в компании)

Монтировали все в Давинчи, в процессе работы тестируя разные кадры, этим удобна работа в ИИ - ты собираешь видео на ходу и можешь вносить изменения в курпности кадров и их динамику.

Ключевая мысль, которую хотелсь бы подсветить.
Сейчас мы видим засилье нейрослопа, в котором авторского виденья зачастую и нет, есть просто визуализированный промт с приколом. Такой контент собирает много, но не факт, что обладает долгоиграющим эффектом. Но ИИ это отличный инструмент в руках Автора, человека обладающего насмотренностью и экспертизой в вопросах сторителлинга. И если во главе угла стоит идея и четкое понимание того, как ее донести - происходит волшебство.
И я рад, что с его помощью можно реализовывать такие экстравагантные идеи 🙂

@cgevent
1👍114😁60🔥32👎219😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Upgrade Grok Imagine, которого мы ждали с прошлого года.

Итак:
улучшенное качество видео
более чистое аудио

И, внимание, длина 10 секунд

Я все и везде проверил, еще не раскатали.

Но пишут, что Full rollout expected soon.

Также пишут, что сначала накатят на Премиум баяр, но это не точно.

Очень жду, чтобы оценить качество. Пока нашел единственный клип в сети на 10 секунд.

@cgevent
🔥46👍72
Krea Realtime Edit

Креа вернулась к тому, с чего начинала (ИИ-олды помнят).
Реалтаймовая генерация.
Только теперь это еще и редактирование, причем изменения в промпте отображаются моментально. И да, на входе может быть картинка (i2i).
Я перекопал полтвиттора, но не нашел, что за модель под капотом. Либо турбированный Flux.Klein, либо дважды турбированный Z-Image Turbo.

Запись в бету тут:

https://www.krea.ai/realtime?requestedModel=realtime-edit

Боюсь представить, сколько токенов жжот такое редактирование и сколько креа-кредитов будет стоить.

Но выглядит прельстивейше.

@cgevent
👍33🔥297😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за продакшен и постпродакшен!

Пусть это видео сделает ваш день.

Все наши шутки про кнопку "сделать красиво" наконец-то обрели визуальную форму. И какую! Красную и прекрасную.

Это невыносимо хорошо.

P.S. Нанабанана для главного персонажа, и Veo3.1 для генерации видео.
Подробности тут:
https://www.linkedin.com/posts/simon-meyer-976339160_making-films-with-ai-is-so-easy-i-made-this-activity-7419317105386356736-1qoV/

Автор: https://www.instagram.com/simonmeyer_director/

@cgevent
47🔥17125👍21😁7👎2
Forwarded from VAI
Уже писал про создание концепта персонажей и локации.Сейчас по плану, как и обещал,создание модели персонажа.

У нас используется только часть пайплайна через ИИ.Но даже эта часть ускоряет работу.

Сейчас уже можно еще больше внедрить ИИ в процессы.Есть идеи,но пока не добрался,так как те процессы реализовывались уже месяца 2-3 назад,а в эру ИИ это соизмеримо с несколькими годами ранее без ИИ в процессах.На новых персонажах уже попробую докрутить процессы и еще сильнее их оптимизировать.Опишу позже,как доберусь.

Создание персонажей все еще остается достаточно сложной с творческой и технической стороны задачей.Но сейчас современные технологии уже помогают ее решить. 🔥

Можно:

1️⃣ Генерировать 3D под обрисовку. Сейчас генераторы практически идеально подходят под этот тип задач. Художники, которым было лень учить 3D,ваш день уже давно настал)
2️⃣ Для несложных проектов в техническом плане.Это подходит для таких проектов, как у нас,где больше важна подача,с которой генераторы уже неплохо справляются.А в совокупности с той же Nano Banana можно вытащить карты нормалей, рафнеса и т.д.Для несложных проектов сделать это уже можно.Писал тут.
3️⃣ Для сложных проектов.Зачастую большой пласт работы составляет скульпт и попадание в нужные формы. На таких проектах скульпты могут делать по несколько недель.При помощи генераторов даже сейчас можно сократить это время в раза два, сэкономив приличный пласт времени. Да,где-то он может ошибаться в формах, но в общем, при обладании нормальными скиллами,это не проблема исправить

Мы продолжаем развивать наши детские режимы и так же создавать для них персонажей.🐶

Как выглядит пайплайн:

🔹 Загоняю концепт в 3D-генератор.Я считаю,что по цене/качеству сейчас все еще в топе Hunyuan 3D.Качество моделей получается неплохим а в совокупности с тем,что они дополнительно дают 20 генераций в день,делает модель в глазах бесплатных и экономных пользователей вообще «золотой».
🔹 Получаю полноценную модель персонажа.Беру с персонажа только голову.Тут и возникает момент,про который писал ранее.Когда делали раньше,было сложновато подогнать тела под нужные типы и стилистику, поэтому мы в большей части ориентировались на характер персонажа.А само тело делали руками.
🔹 Заранее была сделана болванка тела, которая отображала все нюансы, которые нам были нужны в пропорциях и сетке.Далее в планах было подгонять эту болванку под каждого персонажа,немного дорабатывая массы и формы.Если налажу процесс с созданием полноценных концептов с нужными пропорциями,то модель с сеткой можно будет просто проецировать на сгенерированную модель и быстро получать модель с правильной сеткой и правильными массами.
🔹 Голова была сделана авторетопом и немного доработана руками.
🔹 Быстро развернул тело,так как там нет ничего сложного.
🔹 Соединил голову с телом и добавил ошейник для того,чтобы не было видно шва соединения,так как сетка немного отличалась.
🔹 Текстура головы также была спроецирована со сгенерированной модели и доработана в редакторе,а вот тело было покрашено руками полностью.Но,опять же,модели простые, поэтому проблем больших не было.
🔹 Получил готовую модель.
🔹 Обвесы(одежда,часы,цепи и т.д.),которые на концептах,планирую делать отдельными объектами с отдельной текстурной картой,так как планируется сделать их много для каждого персонажа.


Модель этой собаки была сделана за 2 дня.Это от генерации до финального результата.

Из нюансов:у нас нет лицевого рига, поэтому и авторетоп,по сути, нормально подошел. 🤓

С виду кажется,что работа ИИ была незначительная.Но это не так.ИИ решил одну из основных проблем,а именно - попадание в характер персонажа.Люди,которые работают в этой сфере,понимают,что это один из основных моментов в создании персонажа,и зачастую на него может тратиться большая часть времени,так как это творческий процесс и многое зависит от скиллов.С технической частью уже все давно понятно,это измеримый процесс,а вот творчество пока мало чем измеряется и является субъективным.

Как вы справляетесь с подобными задачами в современных условиях.

Дальше поговорим про генерацию локаций. 😎

@VAI_ART
#VAI_Practice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1910🔥8👎7
Камео в Youtube Shorts

Интересный ход от Гугла. Скоро можно будет генерить аватаров, похожих на себя, ну или "генерить себя" для youtube shorts.

Генеральный директор YouTube Нил Мохан объявил в среду, что авторы вскоре смогут создавать Shorts, используя собственное изображение.

«В этом году вы сможете создавать короткометражные фильмы, используя собственное изображение, разрабатывать игры с помощью простой текстовой подсказки и экспериментировать с музыкой».

Shorts, который, по словам Мохана, сейчас в среднем набирает 200 миллиардов просмотров в день, является одним из самых популярных форматов на YouTube.

Тут я вспоминаю свой недавний пост о том, что предел "краткости" видео еще не пройдет, и что микродрамы рвут тикток, и что на итоге все это будет генериться красной кнопкой отсюда.

А мы, динозавры, хлещемся в коментах к нейропрожаркам: "монтаж не тот, смена планов не годицца". Формат Short всех уравняет в искусстве монтажа. Точнее в его отсутствии.

https://techcrunch.com/2026/01/21/youtube-will-soon-let-creators-make-shorts-with-their-own-ai-likeness/

@cgevent
1🔥277👎3😁3👍1
Qwen3-TTS полностью опенсорснули.

Доступно 5 моделей: генерация, клонирование, voice design и редактирование речи.
10 языков: русский язык есть
49 голосов: разные акценты и персонажи.
12Hz токенизатор: сильная компрессия аудио почти без потери качества.
Задержка 97 мс

GitHub
Демо - пробуем
HuggingFace

@cgevent
🔥527
houdini-comfyui-bridge

Опенсорсный плагин для использования ComfyUI прямо в Houdini

— загружает узлы ComfyUI в COPs

— импортирует и экспортирует данные из ComfyUI — генерирует изображения, меши, аудио и прочее

— даёт возможность создавать кастомные пайплайны, которые объединяют CG с диффузионным и генеративным ИИ через TOPs submitte

#houdini #comfyui #3d
15👍5🙏1
D4RT: Обучение ИИ видеть мир в четырех измерениях

Свежая работа от Гугла.

Спойлер: В ходе тестирования D4RT показала результаты в 18–300 раз быстрее, чем предыдущие передовые методы. Например, D4RT обработала минутное видео примерно за пять секунд на одном чипе TPU. Предыдущие передовые методы могли выполнять ту же задачу до десяти минут — улучшение в 120 раз.

D4RT, унифицированная модель искусственного интеллекта для реконструкции и отслеживания 4D-сцен в пространстве и времени.

Иначе говоря, на входе видео (или облако точек) - на выходе "мир", или 3Д сцена с анимацией(отсюда еще одно D).

Гугл немного приоткрывает карты, как (быстро) будут работать следующие версии Veo и Genie. Там также полно применений для:

Трекинг объектов и точек: Запрашивая местоположение пикселя на разных временных шагах, D4RT может предсказать его трехмерную траекторию. Важно отметить, что для того, чтобы модель сделала предсказание, объект не обязательно должен быть виден на других кадрах видео.
Реконструкция облака точек: Замораживая время и ракурс камеры, D4RT может напрямую генерировать полную 3D-структуру сцены, исключая дополнительные шаги, такие как отдельная оценка положения камеры или итеративная оптимизация для каждого видео.
Оценка положения камеры: Путем создания и выравнивания 3D-снимков одного момента времени с разных точек зрения, D4RT может легко восстановить траекторию движения камеры.

Робототехника: Роботам необходимо перемещаться в динамичной среде, населенной движущимися людьми и объектами. Технология D4RT может обеспечить пространственное восприятие, необходимое для безопасной навигации и ловких манипуляций.
Дополненная реальность (AR): Для того чтобы очки дополненной реальности могли накладывать цифровые объекты на реальный мир, им необходимо мгновенное и низкозадержечное понимание геометрии сцены. Эффективность D4RT способствует тому, чтобы развертывание на устройстве стало реальностью.
МОДЕЛИ МИРА: эффективно разделяя движение камеры, движение объектов и статическую геометрию, D4RT приближает нас на шаг к созданию ИИ, обладающего истинной «мировой моделью» физической реальности — необходимый шаг на пути к ИИ общего назначения.

В общем советую пробежаться, очень крутая работа

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://d4rt-paper.github.io/

https://arxiv.org/abs/2512.08924

@cgevent
🔥39👍72👎1
Я уже видел много ИТ конференций, и почти все они идентичные с докладами и рассказами.

T-Sync Conf от Т-Технологий пройдет 7 февраля в Москве выглядит как шаг в другую сторону. Формально это офлайн-конференция для инженеров, но по описанию — скорее среда, где можно посмотреть на технологии без глянца. Восемь технических контуров, из которых каждый собирает свою траекторию: AI, данные, платформы, безопасность, observability, R&D, UX/UI и продуктивность.

Интереснее всего, что упор делают не на рассказы, а на демонстрации и разборы: стенды с AI- и data-платформами, инженерные диалоги про инциденты и реальные сбои, публичные сборки сервисов. Это ближе к тому, как оно живет.

Если формат зайдет, возможно, это станет редким примером конференции, которая не пытается учить, а просто показывает систему изнутри.

@cgevent
🔥6252👎14👍6
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

НейроДудь

Автор: Мозг Просто
Полная версия НейроДудя на YouTube.

Осенью я давал интервью для документального фильма Высшей школы экономики "После промпта". В сам фильм попал небольшой фрагмент, и я долго думал что делать с остальным материалом. Так появился НейроДудь.

Если не считать монтажа самого интервью, работа над роликом заняла около трёх дней. По деньгам - примерно $150. Расскажу о ключевых этапах.


/// - Визуал

Вначале нужно было сделать самого Дудя. Я сразу отказался от реалистичного варианта. Во-первых, это перебор, во-вторых, эффект зловещей долины был бы гораздо сильнее.

И это оказалось сложнее, чем я планировал. Потому что надо было решать сразу три задачи:

- Дизайн локации должен хорошо монтироваться с основной сценой

- Нужно было придумать дизайн самого робота

- Робот должен быть похож на Дудя

Для генерации я использовал Nano Banana Pro. Попробовал разные нейросетки, но остановился на ней, так как детали нужно было дорабатывать итерациями. C ChatGPT результат получался хуже. Однако, я использовал ChatGPT, чтобы дорабатывать промт.


/// - Синтез голоса

Этот этап был одновременно сложным и простым.

Простым, потому что Elevenlabs позволяет быстро и достаточно точно синтезировать голос. Там же можно расставить паузы и акценты. Но чтобы получился хороший результат, нужно собрать референс - исходник реальной речи говорящего, и вот в этом была сложность.

Мне пришлось отсмотреть 4-часовое интервью Дудя и вырезать все моменты, где говорит он. Причём нужны были моменты, где он что-то спрашивает, у него тогда появляются характерные интонации.

И боже, как я устал. Классно его слушать фоном, когда чем-то занимаешься, но когда ты вынужден прям смотреть и искать моменты именно с Юрой, и смотреть прям на Юру - это отдельный вид пытки.


/// - Анимация

Я был не готов заморачиваться. Сразу было понятно, что этот ролик на грани корректности. Сомнительная история, с точки зрения авторских прав, да и сам Ютуб легко бы мог его снести. Поэтому я решил пойти по простому пути, и делал анимацию с помощью HeyGen.

Но и с ним пришлось намучаться. Чаще всего проблема была в том, что нейросеть слишком сильно растягивала рот на акцентных моментах. Да и липсинк пока далёк от идеала.

Чуть проще было генерить вставки с реакциями Дудя. Делал я их с помощью нейросетей "Kling O1" и "Seedance 1.5" на платформе Кrea.

В конечном итоге, Нейро Дудь получился хоть и криповым, но всё равно достаточно залипательным.

Кроме Дудя я сделал круглого робота, который влетает в кадр со мной. Он нужен, чтобы чуть удержать внимание зрителя вначале ролика, пока они привыкают к говорящему.

Визуал робота генерировал в Reve - это мой основной инструмент для создания отдельных объектов. Анимацию делал с помощью "Seedance 1.5" на платформе Кrea. В сцену добавил с помощью After Effects.


/// - Оформление

Интервью Дудя сложно представить, без фирменной отбивки. Только нужно было поменять музыку, чтобы ютуб автоматически не жаловался на авторские права.

Новый логотип сгенерировал с помощью той же Nano Banana, а ремикс на джингл в Stable Audio - это такая Suno курильщика. Пробовал вначале Suno, но сходу не получилось, а Stable сделал с первой попытки то, что нужно. Но за чем-то сложнее туда ходить точно не надо.

///

Вот в общем-то и всё. Судя по каментам на ютубе - людям зашло, но повторять, пожалуй, не буду


@cgevent
1👎97👍4314😁8🔥4🙏1
Вот так новый мультимодальный ERNIE 5.0 генерит наших белок.

https://ernie.baidu.com/

Зато он умеет много чего другого:
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️

@cgevent
6👍6