Метаверсище и ИИще
47K subscribers
5.97K photos
4.4K videos
45 files
6.86K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Stable Cascade огонь. Некоторые лица прям хороши. И даже без SDXL-ного мыла. Что же будет на файнтюнах.
Пока только в ComfyUI с нормальным контролем. Остальные отчаянно молчат, включая A1111(с кривым расширением), Фордж, Фокус, SD.Next и прочих.
Midjourney слегка поперхнулся, но виду не подал (кстати, они отложили свой КонтролНет, хреново, говорят получается. Выкатили пока аналог IP-adapter вместо этого)
👍38🔥21👎2
В недвигу такое должно залететь аж бегом. Я удивлен, что таких сервисов еще не сотни. Тут много продуктовых фич, от генерации фоток для сайтов по аренде-продаже до подбору мебели и дизайна.
Алкают денег по риэлторски: 3 доллара за фотачку при базовом плане на месяц и всего 6 фотачек. Недвига, чо.
https://www.virtualstagingai.app/prices

P.S. Все это можно рассматривать как мета-переодеваторы. Только переодевание недвижки стоит в 95 раз дороже, чем ИИ-примерочные для кожаных.
👍38👎17🔥7
Forwarded from Denis Sexy IT 🤖
Сделал очередную GPT:
Если вы использовали GPT4, то вы наверное знаете что у нее все плохо с креативностью — я так понимаю в датасете частенько встречались какие-то пафосные статьи в стиле топ-10 идей которые вам изменят вашу жизнь, короче, с момента релиза я ее постоянно мучаю чтобы она была самой креативной и она постоянно сопротивляется.

В этот раз я решил пойти чуть дальше:
Я нашел пейпер в котором профессор из Кельна подымают вопрос «Паттернов креативного мышления» (pdf). В документе описано, что научиться креативному мышлению можно так же как и аналитическому и описано как это сделать. Дальше я отправил этот документ в Claude 2.1 с его гигантским размером контекстного окна и попробовал выжать «алгоритм» креативного мышления — от первой мысли до финального результата.

В итоге, я получил довольно большой набор «мыслей» на которые человек должен найти ответ, чтобы решить задачу в самом креативном виде.

В 2024 году людям мыслить уже не модно, поэтому я скормил эти шаги в гигантский промпт и сделал из этого GPT. На скринах пример идеи для свидания в Амстердаме:
Обычный ChatGPT vs Моя «Antibanality Ideas Processing».

Воспринимайте мои слова скептически (лучше так делать всегда), но как мне кажется это пока самое креативное на что способна GPT4 в своих ответах (во всяком случае из всего моего личного опыта). Если переедем на GPT5, то ответы станут еще лучше.

Ссылка на GPT:
https://chat.openai.com/g/g-zucYjaMne-antibanality-ideas-processing

⚙️ Важно: вы можете не читать все промежуточные этапы, они нужны только для того чтобы своими рассуждениями GPT4 повысила сама себе качество ответа — читайте сразу пункт «7. Финальная идея» когда он будет готов.

P.S. Языки поддерживуются все, дефолтный английский. В одно сообщение все помещается только на английском, другие языки жрут больше токенов так что просто напишете ей «продолжи» или нажмите кнопку .

P.P.S. Если идея недостаточно детально расписана, можно попросить уточнить детали, написанные «размышления» в чате помогут ChatGPT сохранить кретиавность.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥80👍22👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Выглядит прельстиво, конечно. Сегментация, поиск объектов, замена и интеллектуальный инпайнтинг.
Мы все это уже видели в многочисленных бумагах и странных демо на hugging face

Теперь Эмад это тизерит как часть Stable Diffusion API

Конечно, все, что говорит Эмад надо делить примерно на 100, но выглядит это как путь к новым пайплайнам.

Хотя если вспомнить ну очень давние демки GauGAN от Нвидии, то это уже витало в воздухе еще в 2018 году...

Одно дело демки, другое продукты. Ждем.
👍30🔥8👎1
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Помните пару лет назад была нейронка First Order Model которая анимировала картинки по видео примерам? Ее наследие живо, встречайте Emo – качество впечатляет, теперь осталось самим потестировать

Сайт проект:
https://humanaigc.github.io/emote-portrait-alive/

Код будет позже
🔥75👍2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Уточню на всякий случай еще раз, что в предыдущем посте речь идет про про очень качественный липсинк и решение Audio2Video от Алибабы.
На входе аудио и картинка, на выходе - говорящая(поющая, орущая) голова.
Больше всего меня убил пример с тетенькой из SORA-generated видео. То есть с симуляцией несуществующей тетеньки.
Кожаные точно больше не нужны. А студенты (и преподаватели) театральных вузов могут смело идти в разметчики эмоций на видео.

D-ID такие: погодите, погодите, что и код будет?
Алибаба: все будет, шашлык из тебя будет...
🔥99👍18👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Pika Labs выкатила Липсинк.

Выглядит очень и очень плохо. Особенно после сегодняшнего анонса от Алибабы. Ну и после SORA я бы вообще ничего не показывал полгодика.

Липсинк - это не шевеление пикселей в районе рта. Это шевеление всей морды головы.

P/S/ На всех этих демо-видео когнитивный диссонанс - там окружение, камера и объекты в слоу моушен, вязко двигаются. И только губы тараторят пулеметом. Две динамики не сшиваются
👎39🔥9👍8
Transparent Image Layer Diffusion
Очень горячо.
Автор КонтролНета, господин Жанг, выпустил новую модель для генерации (внимание) изображений с прозрачностью.

Такими темпами в Stable Diffusion завезут слои как в Фотошопе (интересно, какой адовый интерфейс наворотят в Automatic1111).

И это немного сложнее, чем Remove Background. Кто хочет мяса, почитайте про Foreground LoRa, Background LoRa и прочие подробности тут:
https://arxiv.org/html/2402.17113v1

Мы показываем, что такая прозрачность может быть применена в различных генераторах изображений с открытым исходным кодом или адаптирована для достижения таких целей, как генерация слоев с учетом переднего/заднего плана, совместная генерация слоев, структурный контроль содержимого слоев и т. д.

Код на гитхабе будет завтра. Туда заливаются модели прямо сейчас.
https://github.com/layerdiffusion/LayerDiffusion

Из любопытного для гиков:

We train the model with 1M transparent image layer pairs collected using a human-in-the-loop collection scheme

We further extend our {text, transparent image} dataset into a {text, foreground layer, background layer} dataset, so as to train the multi-layer models. We ask GPTs (we used ChatGPT for 100k requests and then moved to LLAMA2 for 900k requests) to generate structured prompts pairs for foreground like “a cute cat”, entire image like “cat in garden”, and background like “nothing in garden” (we ask GPT to add the word “nothing” to the background prompt). The foreground prompt is processed by our trained transparent image generator to obtain the transparent images. Then, we use Diffusers Stable Diffusion XL Inpaint model to inpaint all pixels with alpha less than one to obtain intermediate images using the prompt for the entire images.
👍45🔥42
This media is not supported in your browser
VIEW IN TELEGRAM
Адобченко бахнул свой генератор музыки.
Но похоже Suno.ai может спать спокойно.
Там нет вокала. Но есть примерно те же фишки, что и у Суно. Продолжение и микширование треков. Плюс некое "редактирование" треков текстом.
Где, как и когда - непонятно.
Все 10 000 анонсов в сети - это на 7/8 обсуждение безопасного ИИ и ответственного отношения к генерации музики.
Единственный источник - вот это видео:
https://www.youtube.com/watch?v=J6jhWyU5lBY
Попробуйте оценить качество...
👎21👍9
Media is too big
VIEW IN TELEGRAM
Гляньте сюда.
https://app.morphstudio.com/waitlist
Стабилити что-то мутит с Morph Studio.
Похоже на нейроНюк для зумеров с непонятной начинкой.
При словах "экспорт в Премьер и ДаВинчи" поднял бровь...
Кто-то их юзал уже?

После выхода Соры, я не могу смотреть на шевеляж пикселей. Но интерфейс выглядит сладким.
Впрочем SwarmUI тоже был задуман сладко...
👍18👎2🔥1
Мы тут все ждем иголочку от Маска, который вроде как уже вонзил ея в человека.
Между тем компания Synchron по тихому и без твиттора уже вонзает свои инвазивные нейроинтерфейсы в мозги пациентов.
Посмотрите это видео, там человек хоть и не играет в пинг-понг, но способен управлять приложением в компьютере. И посмотрите на его лицо.
Также там хорошо рассказано как все это добро устроено.

А я вот подумал, что все этим умные часы, браслеты, кольца - лишь переходный этап.
Я уже сейчас готов вонзить здоровенный чип под кожу, который будет изменять огромное количество моих кожаных параметров. Точнее всех этих неинвазивных игрушек. Даже два, если надо. Поближе к мозгу (ухо?) и поближе к мышцам. Уколите меня, я дам своему ИИ много данных, которые мне точно пригодятся.
https://edition.cnn.com/videos/business/2024/02/27/synchron-brain-implant-patients-me-cprog-orig.cnn
🔥37👍13👎9
This media is not supported in your browser
VIEW IN TELEGRAM
Новый Ideagram 1.0 довольно огненный. Не знаю, что все молчат.
Я не фанат текстов на картинках, но там они есть.
Он довольно лихо исполняет в фоториал и в лица (в отличие от DALL·E 3).
Ну и он, подобно другим(кроме Midjourney), теперь умеет в Очень Хорошее понимание промпта. Вот эта вот картинка из Stable Diffusion 3 с промптом "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat" исполняется им отлично.
Щас накидаю своих опытов, а вы пока шуруйте тестировать.
Логинитесь гуглом и будете иметь 100 генераций в день на обычной скорости (шустро сейчас, по 4 картинки).
20 баксов в месяц за безлимит на стандартной скорости и 4000 картинок на приоритетной выглядит немного спорно. У меня и так есть chatGPT и Gemini и еще разные варианты в сети (не говоря уже про под столом).

В галерее есть прям шедевры.
Го сравнивать с Midjourney.
https://ideogram.ai/t/explore
🔥36👍16👎4
Итак, Ideagram 1.0
Довольно ловкий интерфейс (но я не нашел Seed!).
Есть возможность считать старыми моделями.
Минимум контроля. Есть Remix.
Он может расширять промпт (как DALL·E 3), есть также автопромпт.
В общем хорошая игрушка, кому надо быстро что-сделать с очень приличным качеством и хочется лиц и фоторила.

Но.

В версии 1.0 выпилили всех знаменитостей. Угадайте, где тут версия 1.0, а где 0.2 и 0.1.

Тренд на жоскую цензуру налицо.
Я в 0.2 нагенерил обнаженки легко, в 1.0 он одевает все, что шевелится. Еще и кота рисует, если ему показалось, что генерация получилась неприличной.

Пробуйте сами, решайте сами.
Но при попытке сделать image2image - загоняет в подписку. Нехорошо.
👎11👍8
В коментах уже прислали, как prompt magic в Ideagram превращает обычную просьбу на русском в необычный промпт и такую же картинку.
👎39🔥20👍10