Занятное, lllyasviel предлагает добавлять к артам подписи, которые будут запрещать мультимодалке обрабатывать контент, чтобы он не пошёл под капот AI-Шоггота.
Мы тут были в 22-23 году, когда этот вопрос поднимался артистами с претензиями к Stability, Midjourney, OpenAI, итд. Тогда также были предложения вставлять подобные подписи к артам, на сайты, в метатеги.
Но толку это не дало: Stability выиграли все суды; недавно в Китае суд встал на сторону автора арта сгенерированного в MJ; а невидимые водяные знаки легко смываются. Единственно Adobe со своей мета маркировкой C2PA продвинулся, но это опять же обходится.
Тут либо контент/датасет изначально не должен попадать в сеть (быть за пейволом, как показывает практика, не поможет), либо наоборот изначально подразумевать, что контент в любом случае попадёт под капот нейронке и выстраивать монетизацию иначе. Или как-то его по кусочкам стримить и шифровать для мультимодалки, при этом так чтобы для пользователя это выглядело как обычный контент.
И не удивлюсь если корпораты в борьбе за власть будут использовать data poisoning схемы, чтобы вживлять в публикуемый пользователями контент мету, от которой обработавшая её нейронка начнёт глупеть. И конкуренты жгли деньги и отставали по релизам.
Здесь можно провести параллель со стимом и пиратскими играми: делаешь доступ удобным, а цену разумной, и люди к тебе тянутся. Корпоратам жечь компьют, чтобы дешифровать/отчистить/собрать контент или датасет из открытых источников должно быть менее выгодно, чем просто в белую обратиться по API артиста к нужному датасету. Чтобы оно работало глобально и автоматизированно можно оплату проводить по смарт контрактам.
Твит
Мы тут были в 22-23 году, когда этот вопрос поднимался артистами с претензиями к Stability, Midjourney, OpenAI, итд. Тогда также были предложения вставлять подобные подписи к артам, на сайты, в метатеги.
Но толку это не дало: Stability выиграли все суды; недавно в Китае суд встал на сторону автора арта сгенерированного в MJ; а невидимые водяные знаки легко смываются. Единственно Adobe со своей мета маркировкой C2PA продвинулся, но это опять же обходится.
Тут либо контент/датасет изначально не должен попадать в сеть (быть за пейволом, как показывает практика, не поможет), либо наоборот изначально подразумевать, что контент в любом случае попадёт под капот нейронке и выстраивать монетизацию иначе. Или как-то его по кусочкам стримить и шифровать для мультимодалки, при этом так чтобы для пользователя это выглядело как обычный контент.
И не удивлюсь если корпораты в борьбе за власть будут использовать data poisoning схемы, чтобы вживлять в публикуемый пользователями контент мету, от которой обработавшая её нейронка начнёт глупеть. И конкуренты жгли деньги и отставали по релизам.
Здесь можно провести параллель со стимом и пиратскими играми: делаешь доступ удобным, а цену разумной, и люди к тебе тянутся. Корпоратам жечь компьют, чтобы дешифровать/отчистить/собрать контент или датасет из открытых источников должно быть менее выгодно, чем просто в белую обратиться по API артиста к нужному датасету. Чтобы оно работало глобально и автоматизированно можно оплату проводить по смарт контрактам.
Твит
Media is too big
VIEW IN TELEGRAM
Листать твиттер сейчас Гиблое дело, ну и коль речь зашла про игры.
Нынче на связке вайбкодинга и MCP народ массово генерит всяко-разное: как точечные инструменты / контент под свои задачи, так и игры.
Один чувак сделал такую и для монетизации нашпиговал её адовым количеством рекламы + платный контент. Фокус удался, но это на хайпе в моменте. Как насчёт долгосрока?
Те, кто до этого не сталкивался с программированием могут загнать ллм в версию кода, где она будет чинить одно и ломать другое, а кредиты жечь на повышение. Про заказчиков тут говорить не приходится.
Ок, собрали игру, что дальше? Публикация в стим стоит $100. Про itch.io массовая аудитория не знает. Миниапки в телеге это хорошо: тут есть аудитория, игры не нужно устанавливать, но они в начале своего развития и есть технические ограничения.
Было бы годно AI тусовку монетизировать по ссылке на сайт из твиттора, а в будущем вероятно прямо в нём.
Тут как раз пригодится технология WebGPU для рендеринга игр/софта видюхой прямо в браузере. В прошлом году мне попался на глаза Project Prismatic, позиционирующийся как первый крупный FPS-шутер на WebGPU. Выяснилось, что они релизнулись на сайте для браузерных игр CrazyGames.
Я решил погонять её. При запуске скачивается 144 Мб, а жрёт 2 ГБ VRAM. Сама игра издалека похожа на первую Halo начала 2000-х (которую я люблю). Визуально и по озвучке это всё ощущается больше как эксперимент, чем коммерческий продукт. Особенно, учитывая, что fps до фризов падает местами на 4090. Но для игры без установки запускающейся во вкладке браузера, вполне себе.
И стоило мне пройти уровень как появилось окно, мол заплати $5 и разблокируй новый контент. А там дальше ещё уровни, которые пока за Soon глубоко до релиза. В каком качестве и готовы ли они, я не стал разбираться.
Но с учётом количества навыков и фокуса на краткосрочных целях у большинства вайбкодеров, это пример вектора, куда MCP-MVP толпа может навалиться.
Кстати 2 года назад писал про опенсорсный AI Game Jam под патронажем Hugging Face. И тогда все релизы публиковались на Itch, где их можно было потестить. Я помню, что все игры тогда были очень короткими, а процесс похождения по ним ощущался как стриминг. Тем не менее, у многих были интересные идеи, и было видно что у руля народ с опытом в геймдеве.
Так что начинающим вайбкодеам стоит обзавестись пониманием что происходит под капотом, дробить задачи на подзадачи представляя картину в целом, и перенимать опыт AI — пусть знания из облака текут локально в вашу голову.
Игра Project Prismatic
Нынче на связке вайбкодинга и MCP народ массово генерит всяко-разное: как точечные инструменты / контент под свои задачи, так и игры.
Один чувак сделал такую и для монетизации нашпиговал её адовым количеством рекламы + платный контент. Фокус удался, но это на хайпе в моменте. Как насчёт долгосрока?
Те, кто до этого не сталкивался с программированием могут загнать ллм в версию кода, где она будет чинить одно и ломать другое, а кредиты жечь на повышение. Про заказчиков тут говорить не приходится.
Ок, собрали игру, что дальше? Публикация в стим стоит $100. Про itch.io массовая аудитория не знает. Миниапки в телеге это хорошо: тут есть аудитория, игры не нужно устанавливать, но они в начале своего развития и есть технические ограничения.
Было бы годно AI тусовку монетизировать по ссылке на сайт из твиттора, а в будущем вероятно прямо в нём.
Тут как раз пригодится технология WebGPU для рендеринга игр/софта видюхой прямо в браузере. В прошлом году мне попался на глаза Project Prismatic, позиционирующийся как первый крупный FPS-шутер на WebGPU. Выяснилось, что они релизнулись на сайте для браузерных игр CrazyGames.
Я решил погонять её. При запуске скачивается 144 Мб, а жрёт 2 ГБ VRAM. Сама игра издалека похожа на первую Halo начала 2000-х (которую я люблю). Визуально и по озвучке это всё ощущается больше как эксперимент, чем коммерческий продукт. Особенно, учитывая, что fps до фризов падает местами на 4090. Но для игры без установки запускающейся во вкладке браузера, вполне себе.
И стоило мне пройти уровень как появилось окно, мол заплати $5 и разблокируй новый контент. А там дальше ещё уровни, которые пока за Soon глубоко до релиза. В каком качестве и готовы ли они, я не стал разбираться.
Но с учётом количества навыков и фокуса на краткосрочных целях у большинства вайбкодеров, это пример вектора, куда MCP-MVP толпа может навалиться.
Кстати 2 года назад писал про опенсорсный AI Game Jam под патронажем Hugging Face. И тогда все релизы публиковались на Itch, где их можно было потестить. Я помню, что все игры тогда были очень короткими, а процесс похождения по ним ощущался как стриминг. Тем не менее, у многих были интересные идеи, и было видно что у руля народ с опытом в геймдеве.
Так что начинающим вайбкодеам стоит обзавестись пониманием что происходит под капотом, дробить задачи на подзадачи представляя картину в целом, и перенимать опыт AI — пусть знания из облака текут локально в вашу голову.
Игра Project Prismatic
20
Ну и ещё на тему игр.
В прошлом году одна из моих любимых игр Braid обзавелась юбилейным релизом, и помимо обновленной графики к ней шли комментарии про её создание от автора Джонатана Блоу и других причастных.
Также на ютуб была загружена серия интервью. И вот на ней Джонатан рассказал, что на создание игры его в том числе вдохновила другая игра — Trinity 1986 года.
Это текстовая адвенчура под DOS, которую ты проходишь в формате чата, описывая действия персонажа или окружения. Нынче такие игры спокойно запускаются прямо в вебе. В детстве я такое не застал, а сейчас попробовал и, не зная как это работает,какой промт что писать, можно так в начале и застрять.
Я тогда в прошлом году сразу обратился к релевантной на тот момент ламе 3, попросил перейти в режим текстовой адвенчуры и сыграть со мной в неё. Она моментально отреагировала в нужном ключе. Даже варианты ответов предложила, стараясь сразу пойти тебе на встречу.
Получается весь этот жанр игр по умолчанию теперь под капотом ллмок. Но в отличие от предыдущей итерации AI-версии легко переделать промтом, как и делиться ими.
Braid в Steam
Плейлист с интервью по Braid
Документалка про создание текстовой адвенчуры
В прошлом году одна из моих любимых игр Braid обзавелась юбилейным релизом, и помимо обновленной графики к ней шли комментарии про её создание от автора Джонатана Блоу и других причастных.
Также на ютуб была загружена серия интервью. И вот на ней Джонатан рассказал, что на создание игры его в том числе вдохновила другая игра — Trinity 1986 года.
Это текстовая адвенчура под DOS, которую ты проходишь в формате чата, описывая действия персонажа или окружения. Нынче такие игры спокойно запускаются прямо в вебе. В детстве я такое не застал, а сейчас попробовал и, не зная как это работает,
Я тогда в прошлом году сразу обратился к релевантной на тот момент ламе 3, попросил перейти в режим текстовой адвенчуры и сыграть со мной в неё. Она моментально отреагировала в нужном ключе. Даже варианты ответов предложила, стараясь сразу пойти тебе на встречу.
Получается весь этот жанр игр по умолчанию теперь под капотом ллмок. Но в отличие от предыдущей итерации AI-версии легко переделать промтом, как и делиться ими.
Braid в Steam
Плейлист с интервью по Braid
Документалка про создание текстовой адвенчуры
5
CSM: недавно пришили PBR к своему генератору 3D. А сейчас показывают, что будет если совместить генерацию картинок в ChatGPT с их системой создания 3D модели по частям.
Рабочий процесс:
* Задайте GPT-4o запрос на получение изображения (например,
* В CSM используя инструмент Parts & Asset Packs, сгенерите части персонажа в 3D, и соберите в Blender.
Можно использовать и для виртуальной фотографии, собрав в Блендоре композицию c нужным углом камеры, и скормив ChatGPT изображение с превиза + оригинальные картинки использовавшиеся для получения 3D моделей.
Рекомендации CSM:
Как оно в деле можно почитать тут.
Твит
Сайт
Рабочий процесс:
* Задайте GPT-4o запрос на получение изображения (например,
3D-ассет стилизованного персонажа со всеми частями, разложенными на листе, для преобразования через img-2-3D)* В CSM используя инструмент Parts & Asset Packs, сгенерите части персонажа в 3D, и соберите в Blender.
Можно использовать и для виртуальной фотографии, собрав в Блендоре композицию c нужным углом камеры, и скормив ChatGPT изображение с превиза + оригинальные картинки использовавшиеся для получения 3D моделей.
Рекомендации CSM:
- При написании промта для GPT-4o объединяйте 3D-рендер и оригинальные изображения в коллаж, особенно для сложных сцен.
- Использование PBR 3D-ассетов вместе с трассировкой лучей в Blender, прежде чем скармливать их GPT-4o на ремикс, помогает добиться лучших результатов.
- Экспериментируйте с промтами. Например: Используй изображения слева в качестве рефа. Сделай ремикс рендера справа с использованием рефа на фотореалистичном фоне. ААА продакшн".
Как оно в деле можно почитать тут.
Твит
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи выяснили, что на ранних этапах обучения, когда оценка flow неточна, CFG направляет семплы по неправильным траекториям.
Основываясь на этом наблюдении, представлен CFG-Zero: улучшенный метод генерации картинок/видео вместо обычного CFG.
Работает без доп тренировки с генерацией видео (Wan) и изображений (Flux, SD, Lumina).
Уже вшит в Comfy ноды Kijai, а также WanGP (low vram версия).
Демо
Сайт
Гитхаб
Основываясь на этом наблюдении, представлен CFG-Zero: улучшенный метод генерации картинок/видео вместо обычного CFG.
Работает без доп тренировки с генерацией видео (Wan) и изображений (Flux, SD, Lumina).
Уже вшит в Comfy ноды Kijai, а также WanGP (low vram версия).
Демо
Сайт
Гитхаб
KIRI: выпустили V3 версию плагина для работы со сплатами в блендоре.
Что нового:
* Рисование и использование текстур изображений для редактирования цвета
* Конвертация между сплатом и 3D мешем
* Трансформации и правки можно экспортировать
* другие улучшения
На втором видео с помощью плагина добавили сплат в реальный футаж.
Гитхаб
Сайт
Твит
Что нового:
* Рисование и использование текстур изображений для редактирования цвета
* Конвертация между сплатом и 3D мешем
* Трансформации и правки можно экспортировать
* другие улучшения
На втором видео с помощью плагина добавили сплат в реальный футаж.
Гитхаб
Сайт
Твит
Дайджест:
📹 ВИДЕО + АРТ 🎨
Comfy: скоро Comfy-Manager въедет напрямую в комфи. Давно пора!
Wan: появилась Fun-1.3B-InP версия видеогенератора — она гибче к разным разрешениям кадра и может работать с картинками (базовая i2v модель только 14B). И от этой же команды есть лора на контроль 1.3B. Уже подрублено к Kijai в FP8 и в Wan2GP (low vram) версию, которая теперь даёт генерить видео от 3-5 ГБ VRAM. Также в неё добавлена поддержка CFG-Zero для t2v 14B модели.
Hi3DGen: генерация 3D по картинкам, мультивью, и нормалям. Неплохой результат выдаёт.
InfiniteYou: фреймфорк для персонализации по фото, обзавёлся Comfy.
Flora: добавили стили для смешивания рефов.
AccVideo: новый метод дистилляции для ускорения видеогенерации. Говорят в 8,5 раз быстрее базового Хуньяня при том же качестве.
SuperSplat: обновили экспорт в HTML Viewer.
LeX-Art: модель для генерации качественного текста на картинках.
Tripo: выложили две модели для генерации 3D: TripoSG для получения меша из картинки, и TripoSF с фокусом на обработке открытых пространств и областей прилегающих к поверхностям.
LayerAnimate: модель для анимации с разбивкой видео по слоям. Есть контроль скетчем и траекторией.
OpenAI: дали возможность бесплатным пользователям генерить пару картинок в день. Обозначен лимит 3 изображения в день.
ZLUDA: в CUDA для видюх AMD добавлены CUDA Graph.
Vibe Draw: генерация 3D по скетчам на основе tldraw (спс @JohnDoe171).
Nvidia: выпустили для RTX видюх своего ассистента G-Assist на основе ламы 3 8B. Потестил, толку от него пока мало, может настройками экрана управлять, RGB подсветку вкл/выкл, видюху тюнить.
Luma: теперь версии контента группируются в ветку.
Pika: выкатили фичу для генерации селфи с молодым собой.
Kling: обновили сайт и добавили возможность генерить аудио под видосы.
🎸 ЗВУК 🎸
Riffusion: добавили Vibes, возможность использовать трек (загруженный/сгенерённый) как реф для создания трека в подобном стиле. На вход берется до 10 сек от основы и вместе можно мешать до 3 вайбов.
Mureka: музыкальный генератор, в котором можно писать промт на русском. Много фич, но по качеству пока простовато. 2 песни бесплатно.
Orpheus-cpp: порт llama.cpp генератора речи (TTS) Orpheus для реалтайм обработки звука без GPU (на CPU).
🤖 ЧАТЫ 🤖
LMStudio: добавлена поддержка мульти-GPU.
Google: выкатили Gemini 2.5 Pro, который на бенчах наравне с Claude 3.7, бьёт o3 в рассуждениях, имеет большее контекстное окно, и её можно погонять бесплатно в AI Studio.
DeepSeek: релизнули DeepSeek V3-0324, версию с улучшениями в рассуждениях, фронтэнде, вызове функций, итд.
DeepSite: дипсик заточенный на сборку сайтов и веб-приложений. Работает годно.
OpenAI: улучшили GPT-4o. Модель стала лучше следовать инструкциям и решать более комплексные задачи. Пока для платных пользователей.
Qwen: выпустили Qwen2.5-Omni 7B, мультимодалку сочетающую в себе рассуждалку, реалтайм голосовой/видео чат, берет на вход текст, картинки, видео, аудио. И представили QVQ-Max, рассуждающую модель с поддержкой визуала на вход, а не только текста.
Bytedance: представили DAPO, опенсорсную RL систему для создания масштабных LLM (языковых моделей).
Replit: создатели AI-разработчика открыли доступ бесплатным пользователям и выпустили курс по вайбкодингу.
Anthropic: выпустили исследование про отслеживание мыслительного процесса LLM. Также теперь можно быстро добавлять в память нужные вещи через # в .md файле.
📹 ВИДЕО + АРТ 🎨
Comfy: скоро Comfy-Manager въедет напрямую в комфи. Давно пора!
Wan: появилась Fun-1.3B-InP версия видеогенератора — она гибче к разным разрешениям кадра и может работать с картинками (базовая i2v модель только 14B). И от этой же команды есть лора на контроль 1.3B. Уже подрублено к Kijai в FP8 и в Wan2GP (low vram) версию, которая теперь даёт генерить видео от 3-5 ГБ VRAM. Также в неё добавлена поддержка CFG-Zero для t2v 14B модели.
Hi3DGen: генерация 3D по картинкам, мультивью, и нормалям. Неплохой результат выдаёт.
InfiniteYou: фреймфорк для персонализации по фото, обзавёлся Comfy.
Flora: добавили стили для смешивания рефов.
AccVideo: новый метод дистилляции для ускорения видеогенерации. Говорят в 8,5 раз быстрее базового Хуньяня при том же качестве.
SuperSplat: обновили экспорт в HTML Viewer.
LeX-Art: модель для генерации качественного текста на картинках.
Tripo: выложили две модели для генерации 3D: TripoSG для получения меша из картинки, и TripoSF с фокусом на обработке открытых пространств и областей прилегающих к поверхностям.
LayerAnimate: модель для анимации с разбивкой видео по слоям. Есть контроль скетчем и траекторией.
OpenAI: дали возможность бесплатным пользователям генерить пару картинок в день. Обозначен лимит 3 изображения в день.
ZLUDA: в CUDA для видюх AMD добавлены CUDA Graph.
Vibe Draw: генерация 3D по скетчам на основе tldraw (спс @JohnDoe171).
Nvidia: выпустили для RTX видюх своего ассистента G-Assist на основе ламы 3 8B. Потестил, толку от него пока мало, может настройками экрана управлять, RGB подсветку вкл/выкл, видюху тюнить.
Luma: теперь версии контента группируются в ветку.
Pika: выкатили фичу для генерации селфи с молодым собой.
Kling: обновили сайт и добавили возможность генерить аудио под видосы.
🎸 ЗВУК 🎸
Riffusion: добавили Vibes, возможность использовать трек (загруженный/сгенерённый) как реф для создания трека в подобном стиле. На вход берется до 10 сек от основы и вместе можно мешать до 3 вайбов.
Mureka: музыкальный генератор, в котором можно писать промт на русском. Много фич, но по качеству пока простовато. 2 песни бесплатно.
Orpheus-cpp: порт llama.cpp генератора речи (TTS) Orpheus для реалтайм обработки звука без GPU (на CPU).
🤖 ЧАТЫ 🤖
LMStudio: добавлена поддержка мульти-GPU.
Google: выкатили Gemini 2.5 Pro, который на бенчах наравне с Claude 3.7, бьёт o3 в рассуждениях, имеет большее контекстное окно, и её можно погонять бесплатно в AI Studio.
DeepSeek: релизнули DeepSeek V3-0324, версию с улучшениями в рассуждениях, фронтэнде, вызове функций, итд.
DeepSite: дипсик заточенный на сборку сайтов и веб-приложений. Работает годно.
OpenAI: улучшили GPT-4o. Модель стала лучше следовать инструкциям и решать более комплексные задачи. Пока для платных пользователей.
Qwen: выпустили Qwen2.5-Omni 7B, мультимодалку сочетающую в себе рассуждалку, реалтайм голосовой/видео чат, берет на вход текст, картинки, видео, аудио. И представили QVQ-Max, рассуждающую модель с поддержкой визуала на вход, а не только текста.
Bytedance: представили DAPO, опенсорсную RL систему для создания масштабных LLM (языковых моделей).
Replit: создатели AI-разработчика открыли доступ бесплатным пользователям и выпустили курс по вайбкодингу.
Anthropic: выпустили исследование про отслеживание мыслительного процесса LLM. Также теперь можно быстро добавлять в память нужные вещи через # в .md файле.
1
This media is not supported in your browser
VIEW IN TELEGRAM
"Нейросети отнимают у людей работу"
По-моему, они их спасают.
По-моему, они их спасают.
Media is too big
VIEW IN TELEGRAM
Runway: выкатили Gen-4.
Обещают генерацию стабильных миров с консистентными персонажами.
Управление персонажами как и контроль сцены станет послушнее. Можно делать съёмку с любого ракурса. Редактирование местами напоминает работу со слоями в фотошопе.
Можно будет сфоткать объект из реального мира и закинуть его в модель, чтобы делать с ним видео.
Качество и эстетичность стали ещё кинематографичнее. А физика взаимодействия объектов реалистичнее.
На сайте пока нет инфы по кредитам за генерации. Говорят уже доступно платным подписчикам. У кого есть доступ дропайте тесты в комменты.
Анонс
Сайт
Обещают генерацию стабильных миров с консистентными персонажами.
Управление персонажами как и контроль сцены станет послушнее. Можно делать съёмку с любого ракурса. Редактирование местами напоминает работу со слоями в фотошопе.
Можно будет сфоткать объект из реального мира и закинуть его в модель, чтобы делать с ним видео.
Качество и эстетичность стали ещё кинематографичнее. А физика взаимодействия объектов реалистичнее.
На сайте пока нет инфы по кредитам за генерации. Говорят уже доступно платным подписчикам. У кого есть доступ дропайте тесты в комменты.
Анонс
Сайт
2
Freepik: добавили на сайт генератор мокапов. Можно вписывать брендинг как в сгенерированную текстом сцену, так и на объект на картинке вроде одежды или мерча. Если что, содержимое сцены тоже можно отредактировать.
Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.
Сайт Freepik
Сайт Packshot
Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.
Сайт Freepik
Сайт Packshot
1
Кстати в Recraft тоже можно делать мокапы.
А ещё они добавили стили на векторное лого. Чтобы воспользоваться:
* Нажимаем кнопку Recraft V3 Raw (та, что с красной пандой над промтом)
* Прокручиваем вниз до стилей на векторный логотип
* Выбираем стиль, вписываем промт и жмём кнопку Recraft.
Сайт Recraft
Твит
А ещё они добавили стили на векторное лого. Чтобы воспользоваться:
* Нажимаем кнопку Recraft V3 Raw (та, что с красной пандой над промтом)
* Прокручиваем вниз до стилей на векторный логотип
* Выбираем стиль, вписываем промт и жмём кнопку Recraft.
Сайт Recraft
Твит
Media is too big
VIEW IN TELEGRAM
Babylon.js: до версии V 8 обновился бесплатный опенсорсный фреймворк для разработки 3D-графики, игр, интерактивных сцен и визуализаций в вебе.
Что нового:
* Поддержка IBL теней для реалистичного затенения и областных источников света (Area Lights).
* Легковесный просмотрщик 3D объектов для интеграции в сайт/веб-апу.
* Node Render Graph — новая система для управления рендерингом, упрощает настройку сложных эффектов.
* Поддержка WebGPU Compute Shaders для ускорения вычислений на GPU и комплексных симуляций.
* и не только.
Анонс
Сайт
Гитхаб
Что нового:
* Поддержка IBL теней для реалистичного затенения и областных источников света (Area Lights).
* Легковесный просмотрщик 3D объектов для интеграции в сайт/веб-апу.
* Node Render Graph — новая система для управления рендерингом, упрощает настройку сложных эффектов.
* Поддержка WebGPU Compute Shaders для ускорения вычислений на GPU и комплексных симуляций.
* и не только.
Анонс
Сайт
Гитхаб
1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Натренировал Wan на своём компе по фоткам с собой.
Если вы хоть раз видели меня в реальности, то понимаете насколько это близко. Тут даже родные оценили. Хотя чего уж там, я сам впечатлён как сохраняются детали вроде сережек.
Главное иметь качественный датасет и выставить оптимальные параметры трени — остальное зачастую можно вытянуть промтом.
Тренировал и крупную 14B и мелкую 1.3B, чтобы понять какая в каком случае пригодится. В итоге большую часть времени генерю на 14B в 480p или 720p, ибо на ней благодаря высокой детализации и меньшему количеству артефактов проще получить то, что хочется. Но 1.3B очень шустрая, для черновой анимации подойдёт, хотя потенциал есть и для большего.
Что по скоростям:
На одном и том же датасете из 39 фоток 1.3B тренируется 28 минут, а 14B больше суток на 4090. На видео с собой чуть позже натренирую. Будет дольше, но должно улучшить понимание динамики и детальность недостающих углов обзора. Хотя мне нравится и по фоткам результат.
Генерация, используя txt-2-vid 14B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~16 мин
* 2 сек 720p 24fps 30 шагов ~28 мин
* 2 сек 480p 16fps 30 шагов ~4 мин
* 2 сек 480p 24fps 30 шагов ~6 мин
Генерация, используя txt-2-vid 1.3B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~ 3 мин
* 2 сек 720p 24fps 30 шагов ~ 5 мин
* 2 сек 480p 16fps 30 шагов ~30 сек
* 2 сек 480p 24fps 30 шагов ~60 сек
Веды говорят, что на облачных H100 с доп плюшками можно получить меньше 2 мин на ген img-2-vid 480p. Что хорошо — натренированную txt-2-vid лору можно гонять в img-2-vid.
На сайте Wan скорость с одной стороны быстрее, стартует от 3 минут. Но зачастую, из-за большого потока пользователей, она в итоге улетает вверх за 20-40 мин. Порой в конце вообще выходит с ошибкой, мол зайдите позже.
Также на сайте Wan модель отказалась генерить видос сигарой и прыжок с самолёта, как и более безобидные вещи. А вот локально без проблем — делай что хочешь.
Я обычно на TeaCache, который помогает ускорить генерацию в 2-4 раза, делаю разные черновые варианты, а потом понравившиеся генерю начисто, в процессе меняя параметры и промт если нужно.
Продакшены и агентства — теперь могут попросить чекпоинт актёра или блогера и примерить его в сцену, не гадая в голове как это может выглядеть, а где применимо использовать и напрямую вместо реальных съёмок. Плюсом будет наличие чекпоинта с голосом для липсинка. Можно организовать доступ к каталогу талантов по API или лицензии / контракту.
Бренды — могут сделать лору своего продукта и, используя лору блогера, сгенерить рекламное видео не посылая образцы, и не организуя съёмки / трансфер (особенно когда это нельзя сделать по гео). Для примера, я натренировал кратко лору на Pringles и сцепил её со своей лорой, чтобы сделать совместную сцену.
Если что-то нужно поменять во внешности или сцене, зачастую достаточно детального промта. Альтернативно, если есть конкретное видение, можно переодеть человека или заменить его целиком с помощью flow edit, а также лор на контроль, итд. Мультяшную версию персоны, тем легче получить, чем легче считываются выделяющие характеристики.
Да и просто по-человечески интересно посмотреть на себя со стороны с другой причёской, одеждой, телосложением, иным образом поведения, или в качестве конкретного персонажа. Есть в этом что-то терапевтическое.
🔥 Принимаю заявки на тренировку ваших цифровых двойников или персонажей. Пишите — @AndreyBezryadin
Если вы хоть раз видели меня в реальности, то понимаете насколько это близко. Тут даже родные оценили. Хотя чего уж там, я сам впечатлён как сохраняются детали вроде сережек.
Главное иметь качественный датасет и выставить оптимальные параметры трени — остальное зачастую можно вытянуть промтом.
Тренировал и крупную 14B и мелкую 1.3B, чтобы понять какая в каком случае пригодится. В итоге большую часть времени генерю на 14B в 480p или 720p, ибо на ней благодаря высокой детализации и меньшему количеству артефактов проще получить то, что хочется. Но 1.3B очень шустрая, для черновой анимации подойдёт, хотя потенциал есть и для большего.
Что по скоростям:
На одном и том же датасете из 39 фоток 1.3B тренируется 28 минут, а 14B больше суток на 4090. На видео с собой чуть позже натренирую. Будет дольше, но должно улучшить понимание динамики и детальность недостающих углов обзора. Хотя мне нравится и по фоткам результат.
Генерация, используя txt-2-vid 14B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~16 мин
* 2 сек 720p 24fps 30 шагов ~28 мин
* 2 сек 480p 16fps 30 шагов ~4 мин
* 2 сек 480p 24fps 30 шагов ~6 мин
Генерация, используя txt-2-vid 1.3B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~ 3 мин
* 2 сек 720p 24fps 30 шагов ~ 5 мин
* 2 сек 480p 16fps 30 шагов ~30 сек
* 2 сек 480p 24fps 30 шагов ~60 сек
Веды говорят, что на облачных H100 с доп плюшками можно получить меньше 2 мин на ген img-2-vid 480p. Что хорошо — натренированную txt-2-vid лору можно гонять в img-2-vid.
На сайте Wan скорость с одной стороны быстрее, стартует от 3 минут. Но зачастую, из-за большого потока пользователей, она в итоге улетает вверх за 20-40 мин. Порой в конце вообще выходит с ошибкой, мол зайдите позже.
Также на сайте Wan модель отказалась генерить видос сигарой и прыжок с самолёта, как и более безобидные вещи. А вот локально без проблем — делай что хочешь.
Я обычно на TeaCache, который помогает ускорить генерацию в 2-4 раза, делаю разные черновые варианты, а потом понравившиеся генерю начисто, в процессе меняя параметры и промт если нужно.
Продакшены и агентства — теперь могут попросить чекпоинт актёра или блогера и примерить его в сцену, не гадая в голове как это может выглядеть, а где применимо использовать и напрямую вместо реальных съёмок. Плюсом будет наличие чекпоинта с голосом для липсинка. Можно организовать доступ к каталогу талантов по API или лицензии / контракту.
Бренды — могут сделать лору своего продукта и, используя лору блогера, сгенерить рекламное видео не посылая образцы, и не организуя съёмки / трансфер (особенно когда это нельзя сделать по гео). Для примера, я натренировал кратко лору на Pringles и сцепил её со своей лорой, чтобы сделать совместную сцену.
Если что-то нужно поменять во внешности или сцене, зачастую достаточно детального промта. Альтернативно, если есть конкретное видение, можно переодеть человека или заменить его целиком с помощью flow edit, а также лор на контроль, итд. Мультяшную версию персоны, тем легче получить, чем легче считываются выделяющие характеристики.
Да и просто по-человечески интересно посмотреть на себя со стороны с другой причёской, одеждой, телосложением, иным образом поведения, или в качестве конкретного персонажа. Есть в этом что-то терапевтическое.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
13