Psy Eyes
6.79K subscribers
1.45K photos
1.58K videos
5 files
1.56K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Пора устроить BEDLAM (Bodies Exhibiting Detailed Lifelike Animated Motion)!

Это датасет, который впервые показывает, что нейронные сети, обученные только на синтетических данных, достигают высокого уровня точности в задаче оценки 3D-позы и формы человека на основе реальных изображений.

Прежние синтетические наборы данных были небольшими, нереалистичными или не включали реалистичную одежду. BEDLAM решает эти проблемы, предлагая набор данных, который включает в себя монокулярные RGB-видео с 3D-телами в формате SMPL-X. Есть разнообразие форм тела, движений, оттенков кожи, волос и одежды. Причём последняя реалистично симулируется на движущихся телах с помощью запатентованной технологии физической симуляции одежды.

BEDLAM может быть использован для обучения моделей, которые могут быть применены в таких областях, как компьютерное зрение (анализ движений человека на видео), виртуальная и дополненная реальность (создание реалистичных аватаров на основе одного изображения, итд), здравоохранение (анализ походки пациентов для диагностики или реабилитации, итд), спорт (анализ техники движений спортсменов, итд), итд.

Все изображения, тела, 3D-одежда, код и многое другое доступны для исследовательских целей, включая тренировку своего датасета.

Youtube
Сайт
Гитхаб (тренировка)
Гитхаб (рендеринг)
DreamFusion — генерим картинки из мыслей с помощью ЭЭГ (электро-энцефолограммы).

Данный метод преобразует сигналы ЭЭГ напрямую в высококачественные изображения, минуя текстовую фазу. Процесс такой: получаем сигналы из мозга и закидываем их в ЭЭГ энкодер —> проецируем данные в векторное пространство и через CLIP сопоставляем эмбединги с ЭЭГ эмбедингам на картинках —> SD берет эмбединги и генерит картинки на их основе.

В копилку к другим проектам для генерации из мыслей.

Бумага
Media is too big
VIEW IN TELEGRAM
Midjourney 5.2 Zoom Out + эффект дождя из CupCat.

Как повторить самому:

1) Генерим 3 картинки с двукратным зумом между ними.

2) Создаём новый проект в CapCut или другом видеоредакторе, и кидаем картинки на дорожку.

3) Теперь нам надо соединить их в анимацию с постоянным масштабированием и простой интерполяцией между изображениями. Анимируем каждое изображение, добавляя ключевой кадр Scaling в начале и в конце. Хитрость заключается в том, чтобы начать с 200%, чтобы соответствовать концу предыдущего изображения.

4) Вы увидите, что начало каждого фрагмента немного размыто. Это происходит потому, что мы масштабируем изображение на 200%, и логично, что оно размыто. Добавляем "Резкость" ко всем фрагментам, чтобы все выглядело немного чётче.

5) Используем эффект дождя + звуковые эффекты из библиотеки CapCut и вуаля!

Картинки из видео и промт в комментах.

Делитесь своими зум видосами!

Автор
This media is not supported in your browser
VIEW IN TELEGRAM
Консистентность с высоким разрешением

Видео 2000х4000 и длинной более 30 секунд.

Автор в SD создал 12 ключевых кадров для лица и только 4 ключевых кадра для футболки, чтобы разместить кожаный логотип.

Все ключевые кадры созданы в Stable Diffusion с помощью его метода.

4К версия на ютубе
Реддит
Forwarded from ЭйАйЛера
Новый параметр Midjourney:--weird

Midjourney много критикуют за то, что с новыми версиями, качеством и реалистичностью уходит художественность генераций. Поэтому среди прочих обновлений вроде /zoom и /shorten, появился параметр --weird, раскручивающий художественность и странность.


Параметр работает от --weird 0 до  --weird 3000
Лучше начинать с меньших значений, таких как 250 или 500, а затем идти вверх/вниз
Странно плюс красиво получается в связке с параметром --stylize, особенно, если задавать им одинаковые значения


Судя по моим тестам, параметр может и не сильно управляемый, но действительно отвечает за художественность. И хорошо подходит для генераций идей и художественных решений!
This media is not supported in your browser
VIEW IN TELEGRAM
Кибер-котаны, сделанные в Zeroscope

Автор
Оказывается ChatGPT 3.5 (не GPT-4) умеет показывать картинки в чате.

Как это сделать? Вбиваем промт:

PROMPT: INPUT = {focus} OUTPUT = {description) \n! [IMGI(https://image.pollinations.ai/prompt/{description}) {description) = {focusDetailed},%20{adjective1), %20{adjective2), %20{visualStyle1},%20{visualStyle2}, %20{visualStyle3},%20{artist Reference)

OUTPUT = [cat watching the cyberpunk city]

текст после OUTPUT в квадратных скобках меняете на свой и генерите.

В промте можно увидеть ссылку на сайт Pollinations. Там указано, что они ваяют генеративные ссылки для картинок (Generative Image URL), которые работаю в связке с ChatGPT. Также сказано, что дальше они будут фокусироваться на генеративных видео.

Как это работает:
Когда вы посылаете запрос, ключевые слова в квадратных скобках преобразуются в промт и пришиваются в конец к общему URL. Эта генеративная ссылка прилетает на Colab сервера Pollinations, которые используют DALL-E 2 для генерации и IPFS для децентрализованного хранения изображений. Подробности на скринах от самого ChatGPT.

До этого в марте OpenAI внедрили генерацию картинок в Bing Chat на основе DALL-E 2

Спасибо подписчику @ASSESMNT_Alexey492 за подгон.
Дайджест:

📹 ВИДЕО + АРТ 🎨

Text2Room: генерация 3D интерьеров по текстовому промту.

Slot-TTA: модель для сегментации сцен, оптимизирующая потери реконструкции для каждого тестового образца, позволяя улучшить точность сегментации.

Magic123: ещё одна модель для генерации 3D по одной картинке. Кода пока нет.

🎸 ЗВУК 🎸

GOLF: новый метод синтеза вокала, судя по примерам натренено на китайских песнях, но возможно сработает и с другими языками.

🤖 ЧАТЫ 🤖

LMSYS: выпустили модели LongChat 7B и 13B с контекстом 16к токенов + организовали бенчмарк LongEval для теста LLM в большим контекстным окном.

AI за 5 часов разработал центральный процессор для китайских ученых. По скорости он как Intel i486SX из 90-х годов.

LLaVR: подъехал код и демо упомянутой раньше модели с улучшенным пониманием текста.

OpenOrca: маленькая модель, которая может посоперничать с СhatGPT в обосновании ответов.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
На Hugging Face появился апскейлер Zeroscope XL. Генерим базовое видео в zeroscope v2 с разрешением 575х320, и кидаем его в апскейлер, чтобы поднять разрешение до 1024x576. Подробнее про Zeroscope тут.

Автор
Midjourney добавили функцию панорамирования вверх, вниз, влево, и вправо. Запускается соответствующими кнопками на генерациях.