Psy Eyes

Пора устроить BEDLAM (Bodies Exhibiting Detailed Lifelike Animated Motion)!

Это датасет, который впервые показывает, что нейронные сети, обученные только на синтетических данных, достигают высокого уровня точности в задаче оценки 3D-позы и формы человека на основе реальных изображений.

Прежние синтетические наборы данных были небольшими, нереалистичными или не включали реалистичную одежду. BEDLAM решает эти проблемы, предлагая набор данных, который включает в себя монокулярные RGB-видео с 3D-телами в формате SMPL-X. Есть разнообразие форм тела, движений, оттенков кожи, волос и одежды. Причём последняя реалистично симулируется на движущихся телах с помощью запатентованной технологии физической симуляции одежды.

BEDLAM может быть использован для обучения моделей, которые могут быть применены в таких областях, как компьютерное зрение (анализ движений человека на видео), виртуальная и дополненная реальность (создание реалистичных аватаров на основе одного изображения, итд), здравоохранение (анализ походки пациентов для диагностики или реабилитации, итд), спорт (анализ техники движений спортсменов, итд), итд.

Все изображения, тела, 3D-одежда, код и многое другое доступны для исследовательских целей, включая тренировку своего датасета.

Youtube
Сайт
Гитхаб (тренировка)
Гитхаб (рендеринг)

YouTube

BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion (CVPR 2023)

We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked…

783 viewsAndrey Bezryadin, edited 15:12

Psy Eyes

DreamFusion — генерим картинки из мыслей с помощью ЭЭГ (электро-энцефолограммы).

Данный метод преобразует сигналы ЭЭГ напрямую в высококачественные изображения, минуя текстовую фазу. Процесс такой: получаем сигналы из мозга и закидываем их в ЭЭГ энкодер —> проецируем данные в векторное пространство и через CLIP сопоставляем эмбединги с ЭЭГ эмбедингам на картинках —> SD берет эмбединги и генерит картинки на их основе.

В копилку к другим проектам для генерации из мыслей.

Бумага

943 viewsAndrey Bezryadin, 16:17

Midjourney 5.2 Zoom Out + эффект дождя из CupCat.

Как повторить самому:

1) Генерим 3 картинки с двукратным зумом между ними.

2) Создаём новый проект в CapCut или другом видеоредакторе, и кидаем картинки на дорожку.

3) Теперь нам надо соединить их в анимацию с постоянным масштабированием и простой интерполяцией между изображениями. Анимируем каждое изображение, добавляя ключевой кадр Scaling в начале и в конце. Хитрость заключается в том, чтобы начать с 200%, чтобы соответствовать концу предыдущего изображения.

4) Вы увидите, что начало каждого фрагмента немного размыто. Это происходит потому, что мы масштабируем изображение на 200%, и логично, что оно размыто. Добавляем "Резкость" ко всем фрагментам, чтобы все выглядело немного чётче.

5) Используем эффект дождя + звуковые эффекты из библиотеки CapCut и вуаля!

Картинки из видео и промт в комментах.

Делитесь своими зум видосами!

Автор

1.04K viewsAndrey Bezryadin, edited 18:31

Psy Eyes

1:06

This media is not supported in your browser

VIEW IN TELEGRAM

Консистентность с высоким разрешением

Видео 2000х4000 и длинной более 30 секунд.

Автор в SD создал 12 ключевых кадров для лица и только 4 ключевых кадра для футболки, чтобы разместить кожаный логотип.

Все ключевые кадры созданы в Stable Diffusion с помощью его метода.

4К версия на ютубе
Реддит

6.61K viewsAndrey Bezryadin, edited 08:17

Psy Eyes

Forwarded from ЭйАйЛера

Новый параметр Midjourney:--weird

Midjourney много критикуют за то, что с новыми версиями, качеством и реалистичностью уходит художественность генераций. Поэтому среди прочих обновлений вроде /zoom и /shorten, появился параметр --weird, раскручивающий художественность и странность.

• Параметр работает от --weird 0 до --weird 3000
• Лучше начинать с меньших значений, таких как 250 или 500, а затем идти вверх/вниз
• Странно плюс красиво получается в связке с параметром --stylize, особенно, если задавать им одинаковые значения

Судя по моим тестам, параметр может и не сильно управляемый, но действительно отвечает за художественность. И хорошо подходит для генераций идей и художественных решений!

823 viewsAndrey Bezryadin, 10:39

Psy Eyes

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Кибер-котаны, сделанные в Zeroscope

Автор

1.11K viewsAndrey Bezryadin, 16:12

Psy Eyes

Оказывается ChatGPT 3.5 (не GPT-4) умеет показывать картинки в чате.

Как это сделать? Вбиваем промт:

PROMPT: INPUT = {focus} OUTPUT = {description) \n! [IMGI(https://image.pollinations.ai/prompt/{description}) {description) = {focusDetailed},%20{adjective1), %20{adjective2), %20{visualStyle1},%20{visualStyle2}, %20{visualStyle3},%20{artist Reference)

OUTPUT = [cat watching the cyberpunk city]

текст после OUTPUT в квадратных скобках меняете на свой и генерите.

В промте можно увидеть ссылку на сайт Pollinations. Там указано, что они ваяют генеративные ссылки для картинок (Generative Image URL), которые работаю в связке с ChatGPT. Также сказано, что дальше они будут фокусироваться на генеративных видео.

Как это работает:
Когда вы посылаете запрос, ключевые слова в квадратных скобках преобразуются в промт и пришиваются в конец к общему URL. Эта генеративная ссылка прилетает на Colab сервера Pollinations, которые используют DALL-E 2 для генерации и IPFS для децентрализованного хранения изображений. Подробности на скринах от самого ChatGPT.

До этого в марте OpenAI внедрили генерацию картинок в Bing Chat на основе DALL-E 2

Спасибо подписчику @ASSESMNT_Alexey492 за подгон.

1.08K viewsAndrey Bezryadin, 21:33

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Text2Room: генерация 3D интерьеров по текстовому промту.

Slot-TTA: модель для сегментации сцен, оптимизирующая потери реконструкции для каждого тестового образца, позволяя улучшить точность сегментации.

Magic123: ещё одна модель для генерации 3D по одной картинке. Кода пока нет.

🎸 ЗВУК 🎸

GOLF: новый метод синтеза вокала, судя по примерам натренено на китайских песнях, но возможно сработает и с другими языками.

🤖 ЧАТЫ 🤖

LMSYS: выпустили модели LongChat 7B и 13B с контекстом 16к токенов + организовали бенчмарк LongEval для теста LLM в большим контекстным окном.

AI за 5 часов разработал центральный процессор для китайских ученых. По скорости он как Intel i486SX из 90-х годов.

LLaVR: подъехал код и демо упомянутой раньше модели с улучшенным пониманием текста.

OpenOrca: маленькая модель, которая может посоперничать с СhatGPT в обосновании ответов.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

958 viewsAndrey Bezryadin, edited 17:21

На Hugging Face появился апскейлер Zeroscope XL. Генерим базовое видео в zeroscope v2 с разрешением 575х320, и кидаем его в апскейлер, чтобы поднять разрешение до 1024x576. Подробнее про Zeroscope тут.

Автор

898 viewsAndrey Bezryadin, 14:03

Midjourney добавили функцию панорамирования вверх, вниз, влево, и вправо. Запускается соответствующими кнопками на генерациях.

855 viewsAndrey Bezryadin, 14:31

About

Blog

Apps

Platform