Метаверсище и ИИще
47K subscribers
5.97K photos
4.41K videos
45 files
6.86K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Вебкам туториал.

Вебкам модели ведут себя примерно одинаково, особенно на интро-видосах типа "залетай ко мне в кабинет на процедуры". Движения до боли однотипные.
Теперь их (движения и модели) можно нейрорендерить в любом стиле и количестве. Кого-трясет, что браслет на руке иногда пропадает? Руки не для скуки, как известно. Вам фан или реалистичность?
Более того, солидные господа бегут от реалистичности в мир фантазий и ролевых игр. ИИ даст им и первое и второе.
И третье.

Тут, конечно, больше разнообразных типатанцев, но вебкамные движения нет, да и проглядываются... Или показалось? (Особенно на некоторых бекграундах).

Вот в такие метаверсы народ пойдет с удовольствием...

Ну ок, я ж про полезности в канале, а не про сиськи. Вот держите туториал, по которому делаются такие видосы:
https://www.youtube.com/watch?v=AN2Qf7Gek4g

Для совсем упоротых, вот вам настройки:

animation use this setting:

stage 2 - min keyframe gap - 3, max keyframe gap - 1000, treshold delta - 8.5.

stage 3 - [img2img] prefered controlnet is tile/blur, temporalnet, and lineart at weight 1. Sampler choice is LCM, steps ( minimum is 8, if too blurry I set to 30), CFG ( pick around 2 - 4, you need more steps for high cfg) better test 1 or 2 image first before generating whole keyframe.

Use the prefered resolution recommended on stage 3 description. Adetailer, enable and pick the one with face detection.
🔥79👎31👍24
Chaos Next. Взрослые мальчики берутся за ИИ.

Вот интересная новость от Chaos Group - они внедряют ИИ в свои продукты. И это отличная новость - ибо помимо Unity все крупные 3Д-вендоры упрямо отмалчиваются и делают вид, что слово ИИ есть, а ИИ - нет.
Смотрите, что удумали Владо сотоварищи (дальше в порядке возрастания интересности и уникальности):

Style Transfer - тут все понятно, наваливание различных визуальных стили к рендерам на основе референсов.

Lifestyle Image - грубо говоря, генерация (и матчинг) фонов, для совмещения ваших продуктовых рендеров и окружающей среды.

Material Aging Simulator - моделирует естественный процесс старения материалов в 3D, не только для симуляции, но и для принятия проектных решений. Тут у Хаосов огромная экспертиза - я видел у них офисе многотонный сканер, в который можно присунуть кусок любого объекта - он его отсканирует и выдаст PBR-материал нечеловеческой точности.

PBR Rendering (text to materials) - это то, что также делает Юнити (писал тут) - создания сложных реалистичных PBR-материалов на основе текстовых промптов или рефов.

Smart Scene Populator - автоматическое ИИ-размещение объектов в 3D-сцене. Вот это уже интересно. Похоже на то, что делал (и делает) Прометей от Андрея Максимова, с которым мы как раз и общались про это на Total Chaos в Софии в 2018 году.

Set Extender - это как outpaunt, только полностью в 3Д(!). У вас есть 3Д-сцена, ИИ может ее достроить и расширить. Я заинтригован.

Historical Asset Learner - вот это интересная штука - 3Д-ассистент, который смотрит, что пользователь делал за последний условный год, какие ассеты пилил, и потом "предсказывает его потребности". Я заинтригован еще больше.

Intelligent Lighting Optimizer - автоматическая настройка освещения в вашей сцене!!! Ну за лайтинг-артистов.

И все это добро с Voice Interface - может орать в монитор на ИИ: "объекты создай, как я все время делаю, раскидай их по сцене, посвети как надо и привали на это модный нейролук". И кофе, без сахара.

https://www.chaos.com/next
👍46🔥20
This media is not supported in your browser
VIEW IN TELEGRAM
SORA - это агент, управляющий мирами.

Пока я тут размышлял над тем, что SORA - это симулятор нашего утлого мира(глядя на это видео из SORA), наткнулся шикарную статью на lesswrong, которая прям дословно повторяет мои мысли только для более узкого класса миров - игры.

Я надергаю оттуда цитат, а полный фарш читайте по ссылке.
TLDR: если любой видеоклип можно продолжить, то и любой скрин(стрим) игры тоже можно продолжить, только не промптами, а мышкой или клавой. И будет вам симуляция любой игры. На примере майнкрафта.
ИИтак.

Для начала давайте дадим ей односекундный ролик из настоящей видеоигры Minecraft, в котором персонаж игрока немного перемещается. В нижней части этого ролика мы добавим на экран виртуальную клавиатуру и мышь. Клавиши и кнопки будут становиться черными, когда игрок нажимает на них, а стрелка будет указывать на текущую скорость мыши.

Если мы попросим SORA продолжить видео, она продолжит заставлять персонажа игрока двигаться. Картинка обновится, чтобы отобразить действия игрока - например, левая кнопка мыши должна становиться черной, когда игрок взаимодействует с объектом.

SORA может совершать "действия". Предположим, что сразу после записи односекундного ролика мы останавливаем игру и ждем, пока SORA предскажет следующие 0.1 секунды видео. Получив результаты, мы просто возьмем среднее значение цвета каждой клавиши в последнем кадре предсказанного видео и определим, какие кнопки, по мнению SORA, будет нажимать игрок. Наконец, мы продолжаем игру в течение 0,1 секунды, удерживая эти кнопки, и передаем 1.1 секунды реального видео Minecraft в Sora, чтобы она сделала следующий ход.

Чтобы задать ей направление, давайте добавим текстовую подсказку "строю дом". Это заставит Sora выполнять действия, которые она видела у игроков Minecraft в своих обучающих данных, которые строили дома.

Подробнее тут

В общем, пока я читал статью и писал тексты, пришла новость от Гугла (след пост).

И я пошел неистово наливать с нечеловеческой частотой за бывший gamedev.
👍34🔥3👎2
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Не-не-не, погодите, я не... я даже не ждал, что так быстро...
Все гораздо хуже, если это правда, никаких перескакиваний в 10 лет через привычные пайплайны. Это прямо сейчас происходит!!!

Гугл выкатил генерацию игрового видео! Т. е. сгенерировал и играй, просто вот так, покадрово, 30-60 fps!!! Какая же ты тварь, все-таки, Гугл! (Благо это будет в будущем, и это пока только прототип.)

Генерируется пока супермаленькое разрешение, даже не знаю, пытаюсь хоть какие-то плюсы найти... Представление о генерируемых мирах Сеть Genie берет из миллионов лет интернет-видео, со стримов, видимо.

Оно даже учится придумывать, видимо, управление и выучивать происходящее на экране как определенное действие. Забиндить это потом на клавиши, как вы понимаете, не составляет проблемы.

Читать подробнее тут
👍50👎2
В общем футуристические шутки по то, что ИИ щас для каждого сгенерит игру или кино под его индивидуальный запрос становятся не шутками и не футуристическими. Матрица в низком разрешении уже здесь.
https://sites.google.com/view/genie-2024/

P.S. Вместо "а что бы мне сегодня посмотреть/покатать", скоро будет "хей, сиири, что ты мне сегодня сгенеришь и покажешь с учетом количества алкоголя в крови, степени усталости и других кожаных параметров, в которых ты шаришь лучше меня? врубай уже скорее".

P.P.S. "И не вырубай пожалуй, я тут останусь, где подписать?"
🔥48👍8👎1
Stable Cascade огонь. Некоторые лица прям хороши. И даже без SDXL-ного мыла. Что же будет на файнтюнах.
Пока только в ComfyUI с нормальным контролем. Остальные отчаянно молчат, включая A1111(с кривым расширением), Фордж, Фокус, SD.Next и прочих.
Midjourney слегка поперхнулся, но виду не подал (кстати, они отложили свой КонтролНет, хреново, говорят получается. Выкатили пока аналог IP-adapter вместо этого)
👍38🔥21👎2
В недвигу такое должно залететь аж бегом. Я удивлен, что таких сервисов еще не сотни. Тут много продуктовых фич, от генерации фоток для сайтов по аренде-продаже до подбору мебели и дизайна.
Алкают денег по риэлторски: 3 доллара за фотачку при базовом плане на месяц и всего 6 фотачек. Недвига, чо.
https://www.virtualstagingai.app/prices

P.S. Все это можно рассматривать как мета-переодеваторы. Только переодевание недвижки стоит в 95 раз дороже, чем ИИ-примерочные для кожаных.
👍38👎17🔥7
Forwarded from Denis Sexy IT 🤖
Сделал очередную GPT:
Если вы использовали GPT4, то вы наверное знаете что у нее все плохо с креативностью — я так понимаю в датасете частенько встречались какие-то пафосные статьи в стиле топ-10 идей которые вам изменят вашу жизнь, короче, с момента релиза я ее постоянно мучаю чтобы она была самой креативной и она постоянно сопротивляется.

В этот раз я решил пойти чуть дальше:
Я нашел пейпер в котором профессор из Кельна подымают вопрос «Паттернов креативного мышления» (pdf). В документе описано, что научиться креативному мышлению можно так же как и аналитическому и описано как это сделать. Дальше я отправил этот документ в Claude 2.1 с его гигантским размером контекстного окна и попробовал выжать «алгоритм» креативного мышления — от первой мысли до финального результата.

В итоге, я получил довольно большой набор «мыслей» на которые человек должен найти ответ, чтобы решить задачу в самом креативном виде.

В 2024 году людям мыслить уже не модно, поэтому я скормил эти шаги в гигантский промпт и сделал из этого GPT. На скринах пример идеи для свидания в Амстердаме:
Обычный ChatGPT vs Моя «Antibanality Ideas Processing».

Воспринимайте мои слова скептически (лучше так делать всегда), но как мне кажется это пока самое креативное на что способна GPT4 в своих ответах (во всяком случае из всего моего личного опыта). Если переедем на GPT5, то ответы станут еще лучше.

Ссылка на GPT:
https://chat.openai.com/g/g-zucYjaMne-antibanality-ideas-processing

⚙️ Важно: вы можете не читать все промежуточные этапы, они нужны только для того чтобы своими рассуждениями GPT4 повысила сама себе качество ответа — читайте сразу пункт «7. Финальная идея» когда он будет готов.

P.S. Языки поддерживуются все, дефолтный английский. В одно сообщение все помещается только на английском, другие языки жрут больше токенов так что просто напишете ей «продолжи» или нажмите кнопку .

P.P.S. Если идея недостаточно детально расписана, можно попросить уточнить детали, написанные «размышления» в чате помогут ChatGPT сохранить кретиавность.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥80👍22👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Выглядит прельстиво, конечно. Сегментация, поиск объектов, замена и интеллектуальный инпайнтинг.
Мы все это уже видели в многочисленных бумагах и странных демо на hugging face

Теперь Эмад это тизерит как часть Stable Diffusion API

Конечно, все, что говорит Эмад надо делить примерно на 100, но выглядит это как путь к новым пайплайнам.

Хотя если вспомнить ну очень давние демки GauGAN от Нвидии, то это уже витало в воздухе еще в 2018 году...

Одно дело демки, другое продукты. Ждем.
👍30🔥8👎1
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Помните пару лет назад была нейронка First Order Model которая анимировала картинки по видео примерам? Ее наследие живо, встречайте Emo – качество впечатляет, теперь осталось самим потестировать

Сайт проект:
https://humanaigc.github.io/emote-portrait-alive/

Код будет позже
🔥75👍2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Уточню на всякий случай еще раз, что в предыдущем посте речь идет про про очень качественный липсинк и решение Audio2Video от Алибабы.
На входе аудио и картинка, на выходе - говорящая(поющая, орущая) голова.
Больше всего меня убил пример с тетенькой из SORA-generated видео. То есть с симуляцией несуществующей тетеньки.
Кожаные точно больше не нужны. А студенты (и преподаватели) театральных вузов могут смело идти в разметчики эмоций на видео.

D-ID такие: погодите, погодите, что и код будет?
Алибаба: все будет, шашлык из тебя будет...
🔥99👍18👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Pika Labs выкатила Липсинк.

Выглядит очень и очень плохо. Особенно после сегодняшнего анонса от Алибабы. Ну и после SORA я бы вообще ничего не показывал полгодика.

Липсинк - это не шевеление пикселей в районе рта. Это шевеление всей морды головы.

P/S/ На всех этих демо-видео когнитивный диссонанс - там окружение, камера и объекты в слоу моушен, вязко двигаются. И только губы тараторят пулеметом. Две динамики не сшиваются
👎39🔥9👍8
Transparent Image Layer Diffusion
Очень горячо.
Автор КонтролНета, господин Жанг, выпустил новую модель для генерации (внимание) изображений с прозрачностью.

Такими темпами в Stable Diffusion завезут слои как в Фотошопе (интересно, какой адовый интерфейс наворотят в Automatic1111).

И это немного сложнее, чем Remove Background. Кто хочет мяса, почитайте про Foreground LoRa, Background LoRa и прочие подробности тут:
https://arxiv.org/html/2402.17113v1

Мы показываем, что такая прозрачность может быть применена в различных генераторах изображений с открытым исходным кодом или адаптирована для достижения таких целей, как генерация слоев с учетом переднего/заднего плана, совместная генерация слоев, структурный контроль содержимого слоев и т. д.

Код на гитхабе будет завтра. Туда заливаются модели прямо сейчас.
https://github.com/layerdiffusion/LayerDiffusion

Из любопытного для гиков:

We train the model with 1M transparent image layer pairs collected using a human-in-the-loop collection scheme

We further extend our {text, transparent image} dataset into a {text, foreground layer, background layer} dataset, so as to train the multi-layer models. We ask GPTs (we used ChatGPT for 100k requests and then moved to LLAMA2 for 900k requests) to generate structured prompts pairs for foreground like “a cute cat”, entire image like “cat in garden”, and background like “nothing in garden” (we ask GPT to add the word “nothing” to the background prompt). The foreground prompt is processed by our trained transparent image generator to obtain the transparent images. Then, we use Diffusers Stable Diffusion XL Inpaint model to inpaint all pixels with alpha less than one to obtain intermediate images using the prompt for the entire images.
👍45🔥42
This media is not supported in your browser
VIEW IN TELEGRAM
Адобченко бахнул свой генератор музыки.
Но похоже Suno.ai может спать спокойно.
Там нет вокала. Но есть примерно те же фишки, что и у Суно. Продолжение и микширование треков. Плюс некое "редактирование" треков текстом.
Где, как и когда - непонятно.
Все 10 000 анонсов в сети - это на 7/8 обсуждение безопасного ИИ и ответственного отношения к генерации музики.
Единственный источник - вот это видео:
https://www.youtube.com/watch?v=J6jhWyU5lBY
Попробуйте оценить качество...
👎21👍9
Media is too big
VIEW IN TELEGRAM
Гляньте сюда.
https://app.morphstudio.com/waitlist
Стабилити что-то мутит с Morph Studio.
Похоже на нейроНюк для зумеров с непонятной начинкой.
При словах "экспорт в Премьер и ДаВинчи" поднял бровь...
Кто-то их юзал уже?

После выхода Соры, я не могу смотреть на шевеляж пикселей. Но интерфейс выглядит сладким.
Впрочем SwarmUI тоже был задуман сладко...
👍18👎2🔥1
Мы тут все ждем иголочку от Маска, который вроде как уже вонзил ея в человека.
Между тем компания Synchron по тихому и без твиттора уже вонзает свои инвазивные нейроинтерфейсы в мозги пациентов.
Посмотрите это видео, там человек хоть и не играет в пинг-понг, но способен управлять приложением в компьютере. И посмотрите на его лицо.
Также там хорошо рассказано как все это добро устроено.

А я вот подумал, что все этим умные часы, браслеты, кольца - лишь переходный этап.
Я уже сейчас готов вонзить здоровенный чип под кожу, который будет изменять огромное количество моих кожаных параметров. Точнее всех этих неинвазивных игрушек. Даже два, если надо. Поближе к мозгу (ухо?) и поближе к мышцам. Уколите меня, я дам своему ИИ много данных, которые мне точно пригодятся.
https://edition.cnn.com/videos/business/2024/02/27/synchron-brain-implant-patients-me-cprog-orig.cnn
🔥37👍13👎9
This media is not supported in your browser
VIEW IN TELEGRAM
Новый Ideagram 1.0 довольно огненный. Не знаю, что все молчат.
Я не фанат текстов на картинках, но там они есть.
Он довольно лихо исполняет в фоториал и в лица (в отличие от DALL·E 3).
Ну и он, подобно другим(кроме Midjourney), теперь умеет в Очень Хорошее понимание промпта. Вот эта вот картинка из Stable Diffusion 3 с промптом "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat" исполняется им отлично.
Щас накидаю своих опытов, а вы пока шуруйте тестировать.
Логинитесь гуглом и будете иметь 100 генераций в день на обычной скорости (шустро сейчас, по 4 картинки).
20 баксов в месяц за безлимит на стандартной скорости и 4000 картинок на приоритетной выглядит немного спорно. У меня и так есть chatGPT и Gemini и еще разные варианты в сети (не говоря уже про под столом).

В галерее есть прям шедевры.
Го сравнивать с Midjourney.
https://ideogram.ai/t/explore
🔥36👍16👎4