Занятное, lllyasviel предлагает добавлять к артам подписи, которые будут запрещать мультимодалке обрабатывать контент, чтобы он не пошёл под капот AI-Шоггота.
Мы тут были в 22-23 году, когда этот вопрос поднимался артистами с претензиями к Stability, Midjourney, OpenAI, итд. Тогда также были предложения вставлять подобные подписи к артам, на сайты, в метатеги.
Но толку это не дало: Stability выиграли все суды; недавно в Китае суд встал на сторону автора арта сгенерированного в MJ; а невидимые водяные знаки легко смываются. Единственно Adobe со своей мета маркировкой C2PA продвинулся, но это опять же обходится.
Тут либо контент/датасет изначально не должен попадать в сеть (быть за пейволом, как показывает практика, не поможет), либо наоборот изначально подразумевать, что контент в любом случае попадёт под капот нейронке и выстраивать монетизацию иначе. Или как-то его по кусочкам стримить и шифровать для мультимодалки, при этом так чтобы для пользователя это выглядело как обычный контент.
И не удивлюсь если корпораты в борьбе за власть будут использовать data poisoning схемы, чтобы вживлять в публикуемый пользователями контент мету, от которой обработавшая её нейронка начнёт глупеть. И конкуренты жгли деньги и отставали по релизам.
Здесь можно провести параллель со стимом и пиратскими играми: делаешь доступ удобным, а цену разумной, и люди к тебе тянутся. Корпоратам жечь компьют, чтобы дешифровать/отчистить/собрать контент или датасет из открытых источников должно быть менее выгодно, чем просто в белую обратиться по API артиста к нужному датасету. Чтобы оно работало глобально и автоматизированно можно оплату проводить по смарт контрактам.
Твит
Мы тут были в 22-23 году, когда этот вопрос поднимался артистами с претензиями к Stability, Midjourney, OpenAI, итд. Тогда также были предложения вставлять подобные подписи к артам, на сайты, в метатеги.
Но толку это не дало: Stability выиграли все суды; недавно в Китае суд встал на сторону автора арта сгенерированного в MJ; а невидимые водяные знаки легко смываются. Единственно Adobe со своей мета маркировкой C2PA продвинулся, но это опять же обходится.
Тут либо контент/датасет изначально не должен попадать в сеть (быть за пейволом, как показывает практика, не поможет), либо наоборот изначально подразумевать, что контент в любом случае попадёт под капот нейронке и выстраивать монетизацию иначе. Или как-то его по кусочкам стримить и шифровать для мультимодалки, при этом так чтобы для пользователя это выглядело как обычный контент.
И не удивлюсь если корпораты в борьбе за власть будут использовать data poisoning схемы, чтобы вживлять в публикуемый пользователями контент мету, от которой обработавшая её нейронка начнёт глупеть. И конкуренты жгли деньги и отставали по релизам.
Здесь можно провести параллель со стимом и пиратскими играми: делаешь доступ удобным, а цену разумной, и люди к тебе тянутся. Корпоратам жечь компьют, чтобы дешифровать/отчистить/собрать контент или датасет из открытых источников должно быть менее выгодно, чем просто в белую обратиться по API артиста к нужному датасету. Чтобы оно работало глобально и автоматизированно можно оплату проводить по смарт контрактам.
Твит
Media is too big
VIEW IN TELEGRAM
Листать твиттер сейчас Гиблое дело, ну и коль речь зашла про игры.
Нынче на связке вайбкодинга и MCP народ массово генерит всяко-разное: как точечные инструменты / контент под свои задачи, так и игры.
Один чувак сделал такую и для монетизации нашпиговал её адовым количеством рекламы + платный контент. Фокус удался, но это на хайпе в моменте. Как насчёт долгосрока?
Те, кто до этого не сталкивался с программированием могут загнать ллм в версию кода, где она будет чинить одно и ломать другое, а кредиты жечь на повышение. Про заказчиков тут говорить не приходится.
Ок, собрали игру, что дальше? Публикация в стим стоит $100. Про itch.io массовая аудитория не знает. Миниапки в телеге это хорошо: тут есть аудитория, игры не нужно устанавливать, но они в начале своего развития и есть технические ограничения.
Было бы годно AI тусовку монетизировать по ссылке на сайт из твиттора, а в будущем вероятно прямо в нём.
Тут как раз пригодится технология WebGPU для рендеринга игр/софта видюхой прямо в браузере. В прошлом году мне попался на глаза Project Prismatic, позиционирующийся как первый крупный FPS-шутер на WebGPU. Выяснилось, что они релизнулись на сайте для браузерных игр CrazyGames.
Я решил погонять её. При запуске скачивается 144 Мб, а жрёт 2 ГБ VRAM. Сама игра издалека похожа на первую Halo начала 2000-х (которую я люблю). Визуально и по озвучке это всё ощущается больше как эксперимент, чем коммерческий продукт. Особенно, учитывая, что fps до фризов падает местами на 4090. Но для игры без установки запускающейся во вкладке браузера, вполне себе.
И стоило мне пройти уровень как появилось окно, мол заплати $5 и разблокируй новый контент. А там дальше ещё уровни, которые пока за Soon глубоко до релиза. В каком качестве и готовы ли они, я не стал разбираться.
Но с учётом количества навыков и фокуса на краткосрочных целях у большинства вайбкодеров, это пример вектора, куда MCP-MVP толпа может навалиться.
Кстати 2 года назад писал про опенсорсный AI Game Jam под патронажем Hugging Face. И тогда все релизы публиковались на Itch, где их можно было потестить. Я помню, что все игры тогда были очень короткими, а процесс похождения по ним ощущался как стриминг. Тем не менее, у многих были интересные идеи, и было видно что у руля народ с опытом в геймдеве.
Так что начинающим вайбкодеам стоит обзавестись пониманием что происходит под капотом, дробить задачи на подзадачи представляя картину в целом, и перенимать опыт AI — пусть знания из облака текут локально в вашу голову.
Игра Project Prismatic
Нынче на связке вайбкодинга и MCP народ массово генерит всяко-разное: как точечные инструменты / контент под свои задачи, так и игры.
Один чувак сделал такую и для монетизации нашпиговал её адовым количеством рекламы + платный контент. Фокус удался, но это на хайпе в моменте. Как насчёт долгосрока?
Те, кто до этого не сталкивался с программированием могут загнать ллм в версию кода, где она будет чинить одно и ломать другое, а кредиты жечь на повышение. Про заказчиков тут говорить не приходится.
Ок, собрали игру, что дальше? Публикация в стим стоит $100. Про itch.io массовая аудитория не знает. Миниапки в телеге это хорошо: тут есть аудитория, игры не нужно устанавливать, но они в начале своего развития и есть технические ограничения.
Было бы годно AI тусовку монетизировать по ссылке на сайт из твиттора, а в будущем вероятно прямо в нём.
Тут как раз пригодится технология WebGPU для рендеринга игр/софта видюхой прямо в браузере. В прошлом году мне попался на глаза Project Prismatic, позиционирующийся как первый крупный FPS-шутер на WebGPU. Выяснилось, что они релизнулись на сайте для браузерных игр CrazyGames.
Я решил погонять её. При запуске скачивается 144 Мб, а жрёт 2 ГБ VRAM. Сама игра издалека похожа на первую Halo начала 2000-х (которую я люблю). Визуально и по озвучке это всё ощущается больше как эксперимент, чем коммерческий продукт. Особенно, учитывая, что fps до фризов падает местами на 4090. Но для игры без установки запускающейся во вкладке браузера, вполне себе.
И стоило мне пройти уровень как появилось окно, мол заплати $5 и разблокируй новый контент. А там дальше ещё уровни, которые пока за Soon глубоко до релиза. В каком качестве и готовы ли они, я не стал разбираться.
Но с учётом количества навыков и фокуса на краткосрочных целях у большинства вайбкодеров, это пример вектора, куда MCP-MVP толпа может навалиться.
Кстати 2 года назад писал про опенсорсный AI Game Jam под патронажем Hugging Face. И тогда все релизы публиковались на Itch, где их можно было потестить. Я помню, что все игры тогда были очень короткими, а процесс похождения по ним ощущался как стриминг. Тем не менее, у многих были интересные идеи, и было видно что у руля народ с опытом в геймдеве.
Так что начинающим вайбкодеам стоит обзавестись пониманием что происходит под капотом, дробить задачи на подзадачи представляя картину в целом, и перенимать опыт AI — пусть знания из облака текут локально в вашу голову.
Игра Project Prismatic
20
Ну и ещё на тему игр.
В прошлом году одна из моих любимых игр Braid обзавелась юбилейным релизом, и помимо обновленной графики к ней шли комментарии про её создание от автора Джонатана Блоу и других причастных.
Также на ютуб была загружена серия интервью. И вот на ней Джонатан рассказал, что на создание игры его в том числе вдохновила другая игра — Trinity 1986 года.
Это текстовая адвенчура под DOS, которую ты проходишь в формате чата, описывая действия персонажа или окружения. Нынче такие игры спокойно запускаются прямо в вебе. В детстве я такое не застал, а сейчас попробовал и, не зная как это работает,какой промт что писать, можно так в начале и застрять.
Я тогда в прошлом году сразу обратился к релевантной на тот момент ламе 3, попросил перейти в режим текстовой адвенчуры и сыграть со мной в неё. Она моментально отреагировала в нужном ключе. Даже варианты ответов предложила, стараясь сразу пойти тебе на встречу.
Получается весь этот жанр игр по умолчанию теперь под капотом ллмок. Но в отличие от предыдущей итерации AI-версии легко переделать промтом, как и делиться ими.
Braid в Steam
Плейлист с интервью по Braid
Документалка про создание текстовой адвенчуры
В прошлом году одна из моих любимых игр Braid обзавелась юбилейным релизом, и помимо обновленной графики к ней шли комментарии про её создание от автора Джонатана Блоу и других причастных.
Также на ютуб была загружена серия интервью. И вот на ней Джонатан рассказал, что на создание игры его в том числе вдохновила другая игра — Trinity 1986 года.
Это текстовая адвенчура под DOS, которую ты проходишь в формате чата, описывая действия персонажа или окружения. Нынче такие игры спокойно запускаются прямо в вебе. В детстве я такое не застал, а сейчас попробовал и, не зная как это работает,
Я тогда в прошлом году сразу обратился к релевантной на тот момент ламе 3, попросил перейти в режим текстовой адвенчуры и сыграть со мной в неё. Она моментально отреагировала в нужном ключе. Даже варианты ответов предложила, стараясь сразу пойти тебе на встречу.
Получается весь этот жанр игр по умолчанию теперь под капотом ллмок. Но в отличие от предыдущей итерации AI-версии легко переделать промтом, как и делиться ими.
Braid в Steam
Плейлист с интервью по Braid
Документалка про создание текстовой адвенчуры
5
CSM: недавно пришили PBR к своему генератору 3D. А сейчас показывают, что будет если совместить генерацию картинок в ChatGPT с их системой создания 3D модели по частям.
Рабочий процесс:
* Задайте GPT-4o запрос на получение изображения (например,
* В CSM используя инструмент Parts & Asset Packs, сгенерите части персонажа в 3D, и соберите в Blender.
Можно использовать и для виртуальной фотографии, собрав в Блендоре композицию c нужным углом камеры, и скормив ChatGPT изображение с превиза + оригинальные картинки использовавшиеся для получения 3D моделей.
Рекомендации CSM:
Как оно в деле можно почитать тут.
Твит
Сайт
Рабочий процесс:
* Задайте GPT-4o запрос на получение изображения (например,
3D-ассет стилизованного персонажа со всеми частями, разложенными на листе, для преобразования через img-2-3D)* В CSM используя инструмент Parts & Asset Packs, сгенерите части персонажа в 3D, и соберите в Blender.
Можно использовать и для виртуальной фотографии, собрав в Блендоре композицию c нужным углом камеры, и скормив ChatGPT изображение с превиза + оригинальные картинки использовавшиеся для получения 3D моделей.
Рекомендации CSM:
- При написании промта для GPT-4o объединяйте 3D-рендер и оригинальные изображения в коллаж, особенно для сложных сцен.
- Использование PBR 3D-ассетов вместе с трассировкой лучей в Blender, прежде чем скармливать их GPT-4o на ремикс, помогает добиться лучших результатов.
- Экспериментируйте с промтами. Например: Используй изображения слева в качестве рефа. Сделай ремикс рендера справа с использованием рефа на фотореалистичном фоне. ААА продакшн".
Как оно в деле можно почитать тут.
Твит
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи выяснили, что на ранних этапах обучения, когда оценка flow неточна, CFG направляет семплы по неправильным траекториям.
Основываясь на этом наблюдении, представлен CFG-Zero: улучшенный метод генерации картинок/видео вместо обычного CFG.
Работает без доп тренировки с генерацией видео (Wan) и изображений (Flux, SD, Lumina).
Уже вшит в Comfy ноды Kijai, а также WanGP (low vram версия).
Демо
Сайт
Гитхаб
Основываясь на этом наблюдении, представлен CFG-Zero: улучшенный метод генерации картинок/видео вместо обычного CFG.
Работает без доп тренировки с генерацией видео (Wan) и изображений (Flux, SD, Lumina).
Уже вшит в Comfy ноды Kijai, а также WanGP (low vram версия).
Демо
Сайт
Гитхаб
KIRI: выпустили V3 версию плагина для работы со сплатами в блендоре.
Что нового:
* Рисование и использование текстур изображений для редактирования цвета
* Конвертация между сплатом и 3D мешем
* Трансформации и правки можно экспортировать
* другие улучшения
На втором видео с помощью плагина добавили сплат в реальный футаж.
Гитхаб
Сайт
Твит
Что нового:
* Рисование и использование текстур изображений для редактирования цвета
* Конвертация между сплатом и 3D мешем
* Трансформации и правки можно экспортировать
* другие улучшения
На втором видео с помощью плагина добавили сплат в реальный футаж.
Гитхаб
Сайт
Твит
Дайджест:
📹 ВИДЕО + АРТ 🎨
Comfy: скоро Comfy-Manager въедет напрямую в комфи. Давно пора!
Wan: появилась Fun-1.3B-InP версия видеогенератора — она гибче к разным разрешениям кадра и может работать с картинками (базовая i2v модель только 14B). И от этой же команды есть лора на контроль 1.3B. Уже подрублено к Kijai в FP8 и в Wan2GP (low vram) версию, которая теперь даёт генерить видео от 3-5 ГБ VRAM. Также в неё добавлена поддержка CFG-Zero для t2v 14B модели.
Hi3DGen: генерация 3D по картинкам, мультивью, и нормалям. Неплохой результат выдаёт.
InfiniteYou: фреймфорк для персонализации по фото, обзавёлся Comfy.
Flora: добавили стили для смешивания рефов.
AccVideo: новый метод дистилляции для ускорения видеогенерации. Говорят в 8,5 раз быстрее базового Хуньяня при том же качестве.
SuperSplat: обновили экспорт в HTML Viewer.
LeX-Art: модель для генерации качественного текста на картинках.
Tripo: выложили две модели для генерации 3D: TripoSG для получения меша из картинки, и TripoSF с фокусом на обработке открытых пространств и областей прилегающих к поверхностям.
LayerAnimate: модель для анимации с разбивкой видео по слоям. Есть контроль скетчем и траекторией.
OpenAI: дали возможность бесплатным пользователям генерить пару картинок в день. Обозначен лимит 3 изображения в день.
ZLUDA: в CUDA для видюх AMD добавлены CUDA Graph.
Vibe Draw: генерация 3D по скетчам на основе tldraw (спс @JohnDoe171).
Nvidia: выпустили для RTX видюх своего ассистента G-Assist на основе ламы 3 8B. Потестил, толку от него пока мало, может настройками экрана управлять, RGB подсветку вкл/выкл, видюху тюнить.
Luma: теперь версии контента группируются в ветку.
Pika: выкатили фичу для генерации селфи с молодым собой.
Kling: обновили сайт и добавили возможность генерить аудио под видосы.
🎸 ЗВУК 🎸
Riffusion: добавили Vibes, возможность использовать трек (загруженный/сгенерённый) как реф для создания трека в подобном стиле. На вход берется до 10 сек от основы и вместе можно мешать до 3 вайбов.
Mureka: музыкальный генератор, в котором можно писать промт на русском. Много фич, но по качеству пока простовато. 2 песни бесплатно.
Orpheus-cpp: порт llama.cpp генератора речи (TTS) Orpheus для реалтайм обработки звука без GPU (на CPU).
🤖 ЧАТЫ 🤖
LMStudio: добавлена поддержка мульти-GPU.
Google: выкатили Gemini 2.5 Pro, который на бенчах наравне с Claude 3.7, бьёт o3 в рассуждениях, имеет большее контекстное окно, и её можно погонять бесплатно в AI Studio.
DeepSeek: релизнули DeepSeek V3-0324, версию с улучшениями в рассуждениях, фронтэнде, вызове функций, итд.
DeepSite: дипсик заточенный на сборку сайтов и веб-приложений. Работает годно.
OpenAI: улучшили GPT-4o. Модель стала лучше следовать инструкциям и решать более комплексные задачи. Пока для платных пользователей.
Qwen: выпустили Qwen2.5-Omni 7B, мультимодалку сочетающую в себе рассуждалку, реалтайм голосовой/видео чат, берет на вход текст, картинки, видео, аудио. И представили QVQ-Max, рассуждающую модель с поддержкой визуала на вход, а не только текста.
Bytedance: представили DAPO, опенсорсную RL систему для создания масштабных LLM (языковых моделей).
Replit: создатели AI-разработчика открыли доступ бесплатным пользователям и выпустили курс по вайбкодингу.
Anthropic: выпустили исследование про отслеживание мыслительного процесса LLM. Также теперь можно быстро добавлять в память нужные вещи через # в .md файле.
📹 ВИДЕО + АРТ 🎨
Comfy: скоро Comfy-Manager въедет напрямую в комфи. Давно пора!
Wan: появилась Fun-1.3B-InP версия видеогенератора — она гибче к разным разрешениям кадра и может работать с картинками (базовая i2v модель только 14B). И от этой же команды есть лора на контроль 1.3B. Уже подрублено к Kijai в FP8 и в Wan2GP (low vram) версию, которая теперь даёт генерить видео от 3-5 ГБ VRAM. Также в неё добавлена поддержка CFG-Zero для t2v 14B модели.
Hi3DGen: генерация 3D по картинкам, мультивью, и нормалям. Неплохой результат выдаёт.
InfiniteYou: фреймфорк для персонализации по фото, обзавёлся Comfy.
Flora: добавили стили для смешивания рефов.
AccVideo: новый метод дистилляции для ускорения видеогенерации. Говорят в 8,5 раз быстрее базового Хуньяня при том же качестве.
SuperSplat: обновили экспорт в HTML Viewer.
LeX-Art: модель для генерации качественного текста на картинках.
Tripo: выложили две модели для генерации 3D: TripoSG для получения меша из картинки, и TripoSF с фокусом на обработке открытых пространств и областей прилегающих к поверхностям.
LayerAnimate: модель для анимации с разбивкой видео по слоям. Есть контроль скетчем и траекторией.
OpenAI: дали возможность бесплатным пользователям генерить пару картинок в день. Обозначен лимит 3 изображения в день.
ZLUDA: в CUDA для видюх AMD добавлены CUDA Graph.
Vibe Draw: генерация 3D по скетчам на основе tldraw (спс @JohnDoe171).
Nvidia: выпустили для RTX видюх своего ассистента G-Assist на основе ламы 3 8B. Потестил, толку от него пока мало, может настройками экрана управлять, RGB подсветку вкл/выкл, видюху тюнить.
Luma: теперь версии контента группируются в ветку.
Pika: выкатили фичу для генерации селфи с молодым собой.
Kling: обновили сайт и добавили возможность генерить аудио под видосы.
🎸 ЗВУК 🎸
Riffusion: добавили Vibes, возможность использовать трек (загруженный/сгенерённый) как реф для создания трека в подобном стиле. На вход берется до 10 сек от основы и вместе можно мешать до 3 вайбов.
Mureka: музыкальный генератор, в котором можно писать промт на русском. Много фич, но по качеству пока простовато. 2 песни бесплатно.
Orpheus-cpp: порт llama.cpp генератора речи (TTS) Orpheus для реалтайм обработки звука без GPU (на CPU).
🤖 ЧАТЫ 🤖
LMStudio: добавлена поддержка мульти-GPU.
Google: выкатили Gemini 2.5 Pro, который на бенчах наравне с Claude 3.7, бьёт o3 в рассуждениях, имеет большее контекстное окно, и её можно погонять бесплатно в AI Studio.
DeepSeek: релизнули DeepSeek V3-0324, версию с улучшениями в рассуждениях, фронтэнде, вызове функций, итд.
DeepSite: дипсик заточенный на сборку сайтов и веб-приложений. Работает годно.
OpenAI: улучшили GPT-4o. Модель стала лучше следовать инструкциям и решать более комплексные задачи. Пока для платных пользователей.
Qwen: выпустили Qwen2.5-Omni 7B, мультимодалку сочетающую в себе рассуждалку, реалтайм голосовой/видео чат, берет на вход текст, картинки, видео, аудио. И представили QVQ-Max, рассуждающую модель с поддержкой визуала на вход, а не только текста.
Bytedance: представили DAPO, опенсорсную RL систему для создания масштабных LLM (языковых моделей).
Replit: создатели AI-разработчика открыли доступ бесплатным пользователям и выпустили курс по вайбкодингу.
Anthropic: выпустили исследование про отслеживание мыслительного процесса LLM. Также теперь можно быстро добавлять в память нужные вещи через # в .md файле.
1
This media is not supported in your browser
VIEW IN TELEGRAM
"Нейросети отнимают у людей работу"
По-моему, они их спасают.
По-моему, они их спасают.
Media is too big
VIEW IN TELEGRAM
Runway: выкатили Gen-4.
Обещают генерацию стабильных миров с консистентными персонажами.
Управление персонажами как и контроль сцены станет послушнее. Можно делать съёмку с любого ракурса. Редактирование местами напоминает работу со слоями в фотошопе.
Можно будет сфоткать объект из реального мира и закинуть его в модель, чтобы делать с ним видео.
Качество и эстетичность стали ещё кинематографичнее. А физика взаимодействия объектов реалистичнее.
На сайте пока нет инфы по кредитам за генерации. Говорят уже доступно платным подписчикам. У кого есть доступ дропайте тесты в комменты.
Анонс
Сайт
Обещают генерацию стабильных миров с консистентными персонажами.
Управление персонажами как и контроль сцены станет послушнее. Можно делать съёмку с любого ракурса. Редактирование местами напоминает работу со слоями в фотошопе.
Можно будет сфоткать объект из реального мира и закинуть его в модель, чтобы делать с ним видео.
Качество и эстетичность стали ещё кинематографичнее. А физика взаимодействия объектов реалистичнее.
На сайте пока нет инфы по кредитам за генерации. Говорят уже доступно платным подписчикам. У кого есть доступ дропайте тесты в комменты.
Анонс
Сайт
2
Freepik: добавили на сайт генератор мокапов. Можно вписывать брендинг как в сгенерированную текстом сцену, так и на объект на картинке вроде одежды или мерча. Если что, содержимое сцены тоже можно отредактировать.
Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.
Сайт Freepik
Сайт Packshot
Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.
Сайт Freepik
Сайт Packshot
1