Метаверсище и ИИще
47K subscribers
5.97K photos
4.41K videos
45 files
6.86K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Pika Labs выкатила Липсинк.

Выглядит очень и очень плохо. Особенно после сегодняшнего анонса от Алибабы. Ну и после SORA я бы вообще ничего не показывал полгодика.

Липсинк - это не шевеление пикселей в районе рта. Это шевеление всей морды головы.

P/S/ На всех этих демо-видео когнитивный диссонанс - там окружение, камера и объекты в слоу моушен, вязко двигаются. И только губы тараторят пулеметом. Две динамики не сшиваются
👎39🔥9👍8
Transparent Image Layer Diffusion
Очень горячо.
Автор КонтролНета, господин Жанг, выпустил новую модель для генерации (внимание) изображений с прозрачностью.

Такими темпами в Stable Diffusion завезут слои как в Фотошопе (интересно, какой адовый интерфейс наворотят в Automatic1111).

И это немного сложнее, чем Remove Background. Кто хочет мяса, почитайте про Foreground LoRa, Background LoRa и прочие подробности тут:
https://arxiv.org/html/2402.17113v1

Мы показываем, что такая прозрачность может быть применена в различных генераторах изображений с открытым исходным кодом или адаптирована для достижения таких целей, как генерация слоев с учетом переднего/заднего плана, совместная генерация слоев, структурный контроль содержимого слоев и т. д.

Код на гитхабе будет завтра. Туда заливаются модели прямо сейчас.
https://github.com/layerdiffusion/LayerDiffusion

Из любопытного для гиков:

We train the model with 1M transparent image layer pairs collected using a human-in-the-loop collection scheme

We further extend our {text, transparent image} dataset into a {text, foreground layer, background layer} dataset, so as to train the multi-layer models. We ask GPTs (we used ChatGPT for 100k requests and then moved to LLAMA2 for 900k requests) to generate structured prompts pairs for foreground like “a cute cat”, entire image like “cat in garden”, and background like “nothing in garden” (we ask GPT to add the word “nothing” to the background prompt). The foreground prompt is processed by our trained transparent image generator to obtain the transparent images. Then, we use Diffusers Stable Diffusion XL Inpaint model to inpaint all pixels with alpha less than one to obtain intermediate images using the prompt for the entire images.
👍45🔥42
This media is not supported in your browser
VIEW IN TELEGRAM
Адобченко бахнул свой генератор музыки.
Но похоже Suno.ai может спать спокойно.
Там нет вокала. Но есть примерно те же фишки, что и у Суно. Продолжение и микширование треков. Плюс некое "редактирование" треков текстом.
Где, как и когда - непонятно.
Все 10 000 анонсов в сети - это на 7/8 обсуждение безопасного ИИ и ответственного отношения к генерации музики.
Единственный источник - вот это видео:
https://www.youtube.com/watch?v=J6jhWyU5lBY
Попробуйте оценить качество...
👎21👍9
Media is too big
VIEW IN TELEGRAM
Гляньте сюда.
https://app.morphstudio.com/waitlist
Стабилити что-то мутит с Morph Studio.
Похоже на нейроНюк для зумеров с непонятной начинкой.
При словах "экспорт в Премьер и ДаВинчи" поднял бровь...
Кто-то их юзал уже?

После выхода Соры, я не могу смотреть на шевеляж пикселей. Но интерфейс выглядит сладким.
Впрочем SwarmUI тоже был задуман сладко...
👍18👎2🔥1
Мы тут все ждем иголочку от Маска, который вроде как уже вонзил ея в человека.
Между тем компания Synchron по тихому и без твиттора уже вонзает свои инвазивные нейроинтерфейсы в мозги пациентов.
Посмотрите это видео, там человек хоть и не играет в пинг-понг, но способен управлять приложением в компьютере. И посмотрите на его лицо.
Также там хорошо рассказано как все это добро устроено.

А я вот подумал, что все этим умные часы, браслеты, кольца - лишь переходный этап.
Я уже сейчас готов вонзить здоровенный чип под кожу, который будет изменять огромное количество моих кожаных параметров. Точнее всех этих неинвазивных игрушек. Даже два, если надо. Поближе к мозгу (ухо?) и поближе к мышцам. Уколите меня, я дам своему ИИ много данных, которые мне точно пригодятся.
https://edition.cnn.com/videos/business/2024/02/27/synchron-brain-implant-patients-me-cprog-orig.cnn
🔥37👍13👎9
This media is not supported in your browser
VIEW IN TELEGRAM
Новый Ideagram 1.0 довольно огненный. Не знаю, что все молчат.
Я не фанат текстов на картинках, но там они есть.
Он довольно лихо исполняет в фоториал и в лица (в отличие от DALL·E 3).
Ну и он, подобно другим(кроме Midjourney), теперь умеет в Очень Хорошее понимание промпта. Вот эта вот картинка из Stable Diffusion 3 с промптом "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat" исполняется им отлично.
Щас накидаю своих опытов, а вы пока шуруйте тестировать.
Логинитесь гуглом и будете иметь 100 генераций в день на обычной скорости (шустро сейчас, по 4 картинки).
20 баксов в месяц за безлимит на стандартной скорости и 4000 картинок на приоритетной выглядит немного спорно. У меня и так есть chatGPT и Gemini и еще разные варианты в сети (не говоря уже про под столом).

В галерее есть прям шедевры.
Го сравнивать с Midjourney.
https://ideogram.ai/t/explore
🔥36👍16👎4
Итак, Ideagram 1.0
Довольно ловкий интерфейс (но я не нашел Seed!).
Есть возможность считать старыми моделями.
Минимум контроля. Есть Remix.
Он может расширять промпт (как DALL·E 3), есть также автопромпт.
В общем хорошая игрушка, кому надо быстро что-сделать с очень приличным качеством и хочется лиц и фоторила.

Но.

В версии 1.0 выпилили всех знаменитостей. Угадайте, где тут версия 1.0, а где 0.2 и 0.1.

Тренд на жоскую цензуру налицо.
Я в 0.2 нагенерил обнаженки легко, в 1.0 он одевает все, что шевелится. Еще и кота рисует, если ему показалось, что генерация получилась неприличной.

Пробуйте сами, решайте сами.
Но при попытке сделать image2image - загоняет в подписку. Нехорошо.
👎11👍8
В коментах уже прислали, как prompt magic в Ideagram превращает обычную просьбу на русском в необычный промпт и такую же картинку.
👎39🔥20👍10
Для гиков:

Господин Жанг уже наполовину залил код и веса для Layered Diffusion (слои и прозрачность в Stable Diffusion, я писал тут) и сделал поддержку для Forge.
Я в огне, а вы попробуйте установить и дайте знать в коментах. На фотачках огненно, конечно.

https://github.com/layerdiffusion/sd-forge-layerdiffusion

https://github.com/layerdiffusion/LayerDiffusion
👍35🔥25
Почему роботы нас пожрут? Да потому что они гораздо лучше оценивают(прогнозируют) окружающий мир и у них нет вот этих вот когнитивных искажений.
Смотрите, берут вот такую фотку банки с бусинами и просят chatGPT через GPT-Vision, то есть через фотку оценить, сколько там бусин.
И он делает это шокирующе хорошо и близко к реальному числу.
Более того, он рассуждает по шагам, оценивая размер банки, размер бусины, а потом (о боги) размер кожаной головы и размер узорчиков на рубашке. Сравнивая все это между собой и выдавая оценку.

У роботов точно больше шансов на выживание.
Разные смешные примеры про GPT-V тут.
👍66👎8🔥8
Помощь зала: а накидайте мне решений для как бы синхронного перевода с помощью ИИ. Идея переводить митап, например. Спикер говорит на одном языке, зритель просто слушает аудиопоток с какого-то сайта. Или с локального сервера по вайфай. Или еще как-то. Видели что-то подобное?
Я пока нашел вот такой сервис - Anytalk. Успел немного пообщаться. Так совпало(реально), что ребята из Anytalk сегодня запустились на Product Hunt.
Они сделали расширение для браузера, переводчик видео и аудио в реальном времени на разные языки. Вскоре выпускают приложение, где будут переводить ваш голос (можно будет говорить без знания языка)
Навалите им лайков и отзывов, они хорошие. И накидайте мне альтернатив.
Вот ссылка: https://www.producthunt.com/posts/anytalk-2
👍61🔥131
This media is not supported in your browser
VIEW IN TELEGRAM
Берем, кидаем в SORA промпт: ""an alien blending in naturally with new york city, paranoia thriller style, 35mm film".

А потом конвертируем в 23.97fps, чтобы он стал больше похож на 35-миллиметровый формат и стробил, как положено.
Наверняка в SORA будет контроль над частотой кадров, срабатыванием затвора, ISO и диафрагмой - это все уже цветочки по сравнению с симуляцией мира, в котором по улицам ходят зомби.
Благо мы хорошо подкормили ии со всеми этими зомбиапокалипсами. Он наверное думает, что это просто еще одна раса.
🔥120👍18