Метаверсище и ИИще
47.2K subscribers
6.01K photos
4.47K videos
46 files
6.91K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Qwen-Image-Layered все ближе.

И это отдельная модель, а не Лора для 2509.

Умеет разбирать сгенерированное изображение на НЕСКОЛЬКО слоев, а не только на фон и объект.

Вчера уже вышла статья: Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

Ждем анонса и кода

Утечки: по умолчанию - 4 слоя. Но можно даже задавать количество слоев.

Ну и не забываем про OmniPSD

@cgevent
🔥568👍4👎1
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-лопаты для ИИ-рекламы

Наткнулся тут на новость, что французы из Arcads AI подняли 16 миллионов на свой проект.

При этом у них нет ни свой модели, ни лор, ничего.

Они просто берут АПИ у всего, что шевелится и генерят говорящие головы, которые что-то рекламируют.

У них вообще упор на библиотеку ими же сгенерированных ИИ Актеров (1000 штук), которых можно оживлять. Создавать своего аватара тоже можно, но это как вы понимаете сейчас это даже не фича.

Это я к тому, что реклама - это область, которая платит здесь и сейчас. Достаточно упаковать API вызовы в довольно шаблонный сайт - и вот уже 16 миллионов ваши.

Никто, правда, не измеряет, как работает эта реклама, но об этом следующий пост.

https://www.arcads.ai/

@cgevent
1😁189👍7😱2
Media is too big
VIEW IN TELEGRAM
Как и обещал в прошлом посте, поговорим про создание и, что главное, метрики ИИ-рекламы. Можно ли подкручивать генерацию креативов так, чтобы они перформили априори лучше, чем в среднем по рынку?

Я хорошо знаю команду INCYMO.AI, а уж с Аней я знаком тыщщу лет. И давно наблюдаю, как они работают с креативами и перфомансом. И каждый раз вижу одну и ту же проблему на рынке:

Большинство видео не «плохие».
Они просто не попадают в креативные сигналы, которые реально влияют на результат.

Классная идея, нормальный продакшн -
и при этом никто не может чётко ответить, почему видео не взлетело и что именно нужно менять.

INCYMO - это продукт для маркетологов, UA и креативных продюсеров, которые хотят выигрывать гонку за внимание, а не просто генерить ролики.

Что здесь важно:
Платформа позволяет обучать агентов под разные задачи:
• разные платформы (Meta, TikTok, UGC, инфлюенсеры, перфоманс)
• разные географии и культурные паттерны
• разные цели: масштаб, тесты, поиск новых хуков, снижение выгорания креатива

То есть вы работаете не с «усреднённой аналитикой», а с системой, обученной на ваших данных и под ваш контекст.

Что можно сделать прямо сейчас:
• загрузить свои видео или видео конкурентов (на платформе подключен спай сервис, откуда можно их выгрузить как источник доп данных)
• получить разбор по сотням сигналов:
хук, тайминги (0.7s vs 1.1s реально решают), динамика, эмоция, механика, текста, последовательность, объекты и их совокупности и тд
• и получить финальные видео или забрать ролики по кнопке как референсы для команды

Это не магическая кнопка.
Это система принятия решений по креативу, которая:
• объясняет, почему что-то работает, а что-то нет
• помогает масштабировать удачные паттерны и автоматом исключает параметры, которые тянут перформанс вниз
• убирает субъективщину и хаос из продакшна

Если вы работаете с видео и устали от:

«давайте просто сделаем ещё 20 вариантов», то рекомендую попробовать.

🔗 Ссылка здесь: https://incymo.ai/app/
Загрузите ролики и посмотрите, какие сигналы вы пропускаете. И сгенерите на основе них новые сценарии и видео.

А если хотите максимальный результат, лучше записаться на демо — основательница лично проведёт по платформе и подскажет нюансы для ваших задач.

@cgevent
👎6612👍2
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
TurboDiffusion

Обещают ускорение Wan 2.1 T2V / 2.2 I2V аж до 100x-200x

Сравнивали, видимо, с ванильными Wan без causevid/turbo лор, которые и так генерят нормально за 5-10 шагов.

Sparse-Linear Attention, q8, rCM

hf
git

техрепорт
👍62
This media is not supported in your browser
VIEW IN TELEGRAM
Нейропрожарка

Ролик «Добрый Кола» задумывался как ответ на новогоднюю нейро‑рекламу Coca‑Cola: не пародия и не копия, а та же идея праздника, переосмысленная в российском контексте. Мы передали атмосферу русского Нового года, пушистой зимы, ожидания подарков под ёлкой и присутствия Деда Мороза, которых так не хватает в оригинальном ИИ‑ролике.​

Над проектом работала команда из 4 человек, производство растянулось на 3 недели в свободное от других задач время. Бюджет на нейросети удалось удержать в районе 20 000 рублей за счёт максимально экономного подхода и выверенных промтов.

В процессе работы появилась концепция «макромира» с грузовиками, на которой построена завязка истории и связка с грузовиками. Эта идея задала тон дальнейшей детализации: сцены многократно перерабатывались, пока «локализованная копия» не превратилась в самостоятельный "фильм" с цельной драматургией, а не набор кадров.​

Из интересного:
За основу грузовика взята реально существующая модель кабины Камаза.
В видео была добавлена точная копия моста в Москве, реально существующие локации Суздали и Санкт-Петербурга.

Инструменты:
Нейросети —
weavy.ai, Krita AI Diffusion, Grok, Midjourney, Google AI Studio Pro, Kling O1, Adobe Firefly Video, Veo, Suno, ElevenLabs.
CGI — PS, After Effects, Nuke.

Производство нейро‑ролика стало для команды и техническим, и творческим экспериментом. От раскадровки и поиска визуального языка до подбора «локаций» внутри нейросетей. Ключевой задачей было собрать цельную, живую историю с понятной линией повествования и эмоциональным стержнем там, где зрители привыкли видеть просто красивый, но случайный набор AI‑картинок.

Авторы
Service Ai —
@AIServiceAdmin, @FischeR_ts и @ITS_A_PC
CGPX —
@mc_point

@cgevent
24👍120👎6821🔥18😁6😱5
😁43😱72👍1👎1
Media is too big
VIEW IN TELEGRAM
Starring: Еще немного про Wan 2.6 R2V

Модель называется Reference2Video, но в интерфейсе самого Wan.Video эта функция обозначена как Starring

Чем-то похоже на Cameo от Sora, но здесь на входе может быть несколько видео и, соответственно, в промпте можно указывать несколько персонажей(референсов). Посмотрите на видео, там это ловко сделано.

Эти референсные видео могут быть до 5 секунд длиной, и это может быть не только персонаж, а объект (бутылка или топор). Но самое интересное, что звук из видео тоже считывается как референс: тут и войс клонинг, шум клонинг, и эффекты.

У меня на wan.video все работает, кстати, дают 150 кредитов КАЖДЫЙ день.

@cgevent
15👍10🔥9
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
Comfy: наваяли продуктовых воркфлоу с упором на создание рекламного контента.

Можно:
* Из селфи сгенерить фотосет или вариации персонажа
* Получить разные углы обзора из картинки
* Заменить одежду или продукт на фото на целевые
* Из мобильного фото получить видео с товаром
* Наваять динамичное 3D лого
* Из развёртки товара получить картинку как он будет выглядеть упакованный
* и не только

Для многого из этого нужны API запросы к банане и ко, ибо в первую очередь оное создано для Comfy Cloud.

Но, вместе с этим все ворки можно для локального использования скачать на гитхабе, где они выпущены под MIT лицензией для коммерческого использования.

Сайт
Воркфлоу шаблоны
Твит
1🔥2511😱2
Тут в коментах спрашивали, что за чехарда теперь творится в выборе моделей от Гугла (в интерфейcе Gemini например, не в API)

Раньше было просто Fast и Thinking - но раньше была одна модель Gemini 3 Pro.

Теперь вышла Gemini 3 Flash, проэтому теперь:

Fast = Gemini 3 Flash (without thinking)
Thinking = Gemini 3 Flash (with thinking)
Pro = Gemini 3 Pro (with thinking)


@cgevent
😁36👍7😱61🔥1
Оппаньки, Нанабанана так бодро начала в опросе, а потом слила первенство GPT Image 1.5

Хотя если взять настроения из коментов и пошуршать в твитторе на этот счет, то там мнение "Банана рвет GPT Image" как тузикь старую клизьму.

Неожиданно.

Мое мнение такое: GPT Image как будто пытается изо всех сил понравится, поэтому перебарщивает с деталями и с контрастом. Как будто там был RLHF на цыганах. Банана поспокойнее и поуниверсальнее.

Я\МЫ БАНАНА!

Смешное: SD1.5 теперь можно трактовать как SeeDream 1.5.

@cgevent
42👍18😁7👎2😱2
Банана Красава.

Вот взяли я цветик-девятицветик, который GPT Image 1.5 мне впаривал за семицветик, и говорю: удали два лепестка!

Апажалста!

Чем не семицветик?!

@cgevent
😁14817👍8🔥6
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Музыкальный клип

Режиссёр: Клим Тукаев
Производство: AI-LAB

Полная версия:
https://www.youtube.com/watch?v=ZV5I6TQUpN4

⚡️Видео создавалось, как свободный творческий проект. Муз.клип с авторским замыслом и линейной историей на песню моей подруги.

Срок производства: 15 дней.

💻 Процесс работы проходил этапами: сначала сгенерил куклу главной героини через Midjorney с применением omni ref (живого фото певицы) и разных стилей. Затем разработал других персонажей в похожем стиле + сгенерировал реквизит (гитара, фургон, несколько вариантов постеров) через Nana Banana (тогда ещё не Pro).

Затем приступил к генерации сцен. Механика: создаю мастер-план (ключевой общий план сцены) через мидж, довожу его до совершенства и множу на ракурсы через Nana Banana.

Основной объём анимации через Kling 2.5 Turbo в Higgsfield. Но так как хигс часто цензурирует видео со словами “stop-motion animation” в промпте, в качестве альтернативы использовал Hailuo 2.3. Кстати, Hailuo чаще смазывает изображение, но лучше справляется с динамичными массовыми сценами (толпа на концерте, героиня на сцене, овечий апокалипсис и т.д.). В Kling все двигаются синхронно и ужасно замедленно, хоть и сохраняют пропорции.

👄 Kling Lip-sync не справился с кукольными губами, так что пришлось анимировать кадры с рандомным липсингом и подгонять фазы под музыку (вышло не очень, но приемлемо).

💀 Сложнее всего было сделать историю визуально-цельной и сюжетно-связной. Тем более, что во вторую неделю работы вышла Nana Banana Pro, которая стала рисовать кадры лучше, но иначе. Хотелось всё бросить, и начать генерить с нуля. Заставил себя сперва доделать клип до конца, и оценить общий результат.
Спасло наличие папки с фиксированными фото персонажей и реквизита, написанные в одном стиле промпты с одинаковыми ключевыми словами, общая системность в работе.

В общем было потно!
Но результат мне нравится.
Надеюсь, зайдёт и вам 🤟🏻


@cgevent
4👍79👎28🔥128
Поможем нашей психологической науке.
Она изучает сейчас очень интересное явление: почему мы с кем-то дружим всю жизнь, а с кем-то расстаемся!

Согласитесь, интересно.
Знаете, что одиночество стало новой нормой — ВОЗ уже говорит о нём как о мировой эпидемии.

Самым лучшим противоядием от одиночества считается дружба.

Давайте поможем ученым с кафедры психологии СПбГу! Ответьте, пожалуйста, на вопросы составленной психологами анкеты.
Опрос анонимный, занимает немного времени.

И тогда быть может, мы поймём:
Почему дружба заканчивается?
Умеем ли мы дружить на самом деле?

👉 Пройти опрос:
https://docs.google.com/forms/d/e/1FAIpQLScXQPmU3iV2Ejw2Sv4eQMVRaPl0RYUnrKjFwUQ4QJJoz5yHkQ/viewform?usp=publish-editor
👍2511👎6🔥2
Forwarded from Neural Shit
S L O P E R A T O R

Кажется, пора менять никнейм во всех соц. сетях и платформах
😁90🔥319
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen-Image-Layered с кодом и весами готов!

Делает из любой RGB картинки RGBA-слои.

Можно вручную задавать от 3 до 10 слоев.

Но! Можно делать слои из слоёв!

Держите сразу демо:
https://huggingface.co/spaces/Qwen/Qwen-Image-Layered

Все остальное, код, веса, папира тут:
https://github.com/QwenLM/Qwen-Image-Layered

P.S. уже есть на репликейт:
https://replicate.com/qwen/qwen-image-layered
И Фал:
https://fal.ai/models/fal-ai/qwen-image-layered

@cgevent
🔥9121👍9😱2😁1
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

Команда: "Нейростанок"
короткометражный ролик "Я все верну"

🛠 Задача: Создать короткометражный ролик с легким сюжетом в реалистичном стиле.
⏱️ Срок: 50-60 часов чистого времени.
👥 Команда: 2 человека. Разделили задачи по направлениям: — Видео, липсинк, звук. — Арт-дирекшн, статика, монтаж.
💡 Идея и Сеттинг:
Выбрали Микки — мы его фанаты), поэтому решили с ним поработать. Хотелось сделать что-то современное и с юмором, отправили его гулять в Москва-Сити. Вписали в сценарий российские бренды, чтобы продемонстрировать потенциал их интеграции в нейро-видео. Сюжет рождался в моменте, как творческий эксперимент.
Главная техническая цель — демонстрация работы бесшовной камерой с сохранением консистентности окружения и персонажа, а также общий тест наших возможностей.

🎬 Стек и Пайплайн:

Персонаж (Микки): Ideogram /Seedream.

Статика: Nano Banana (первая), Seedream 4

Анимация: Kling 2.1 (Start-End) и Kling 2.5 (Start-End).

Липсинк: Infinity.

Звук: ElevenLabs + Kling v2a (через
Fal.ai).

Пост: Photoshop, Topaz (апскейл до 4К 60fps).

Монтаж: Davinci, AE

🚧 Технические боли и Решения:
Главный вызов — бесшовная камера.

Проблема 1 (Движение): Для склеек нужны были последовательные движения камеры, а генераторы выдавали рандом. Регулировали промптом, точным подбором Start/End кадров и монтажом (выбор лучших шотов).

Проблема 2 (Генераторы): Тестировали Hailuo, Veo 3.1, Seedance — все они меняли конечное разрешение или масштаб объектов, что ломало склейку.
Решение: Полностью перешли на Kling, так как он единственный четко приводит анимацию в указанный End-фрейм.

Проблема 3 (Дорисовки): Если в кадре отсутствовали детали, Kling дорисовывал "что попало". Лечили доработкой стилов в Photoshop под End-фрейм и очень детальным описанием сцены.

Проблема 4 (Птеродактиль): Хотели, чтоб птеродактиль говорил, к сожалению корректно лип на него не лёг ни в одном V2V-инструменте.

🔊 Звук (Инсайт):
Поначалу использовали ElevenLabs, но для SFX (звуковых эффектов) Kling v2a оказался намного круче: он лучше понимает промпт и выдает стерео, в то время как ElevenLabs часто сваливался в моно.

💰 Бюджет:
Суммарно расходы составили $236 (около 23-24 тыс. руб).

Основная часть ($208) ушла на Kling через
Fal.ai (версии 2.1 по $0.45 и 2.5 по $0.35).

Подписка Higgsfield ($49) — для безлимита в Seedream и Banana.

📌 Итог:
Добились результата именно через связку Start-End анимации и ручной доработки промежуточных кадров в Photoshop, когда нейросети не знали нужных объектов или ломали масштаб.
P/S Знаем что присутствуют ляпы и нюансы, но на этом этапе решили остановиться. Надеемся, вайб и идея перевесят технические огрехи.✌🏼
Автор: Нейростанок
Телеграм:
@neurostanok
сайт:
https://нейростанок.рф

@cgevent
29👎425🔥15325👍16😱11😁4
Media is too big
VIEW IN TELEGRAM
Ни рендер, ни генерация...

Оказывается Олаф - это робот! Чистая мехатроника.

Я немного в шоке.

Поглядите видео, там показаны его внутренности.

А причем тут ИИ?

А притом что RL использовался для обучения и воспроизведения анимации. Причем не только основной, но и вторичной типа перекатывания с пятки на носок или уменьшения уровня "топания".

Посмотрите видео от Disney Research, оно реально интересное.

@cgevent
146🔥46👍10😱6😁3
This media is not supported in your browser
VIEW IN TELEGRAM
Ещё немного Диснея/Пиксара.

Только вместо мехатроники чистая генерация.

Это Клинг 2.6 Motion Control.
И это уже хорошо!

Такой нейромокап нам нужен.

Конечно, именно, Эластика двигалась бы по другому, но меня удивляет качество картинки.

Новый нормальный композ однако.

@cgevent
🔥6820👎4😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Generative Refocusing
Flexible Defocus Control from a Single Image

Очень занятная работа по рефокусу и боке.

Есть код и даже демо:
https://huggingface.co/spaces/nycu-cplab/Genfocus-Demo

Полный фарш тут:
https://generative-refocusing.github.io/

@cgevent
🔥41👍52
Media is too big
VIEW IN TELEGRAM
Ну за подтанцовку!

Хотя нет.

Ну за певческих артистов!

Добыл полное видео этого эпичного выступления с робатами. Там их соло где то на 2/3 тайминга.

Сначала подумал выпить в тишине за подтанцовку - вон как малыши из Unitree наяривают, а спать и бабки не просят.

Но потом понял, что такую музику в принципе и Суно напишет. А вместо этого кожаного Киркорова можно поставить того же Unitree робата, включить плюсовочку, на экране головы изобразить липсинк - и вот уже робаты поют и танцуют, а кожаные визжат и вонзают. Деньги за билеты и эмоции за просмотр.

Кожаным же все равно, лишь бы звезда была раскручена, вон китайские девочки визжат на концертах аниме-персонажей, а тут им ещё и 3д покажут и костюмы любые можно менять хоть каждый номер.

Звуковики и осветители пока держатся, а вот исполнителям пора податься в актеры мокапа.

Видео сделано прям хорошо. Робаты отлично вписываются в это безумие.

@cgevent
🙏18😁11👎64👍4🔥2