Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Resemble Enhance — инструмент на базе AI для улучшения звучания речи. Он состоит из двух модулей: денойзера, который отделяет голос от зашумленного аудио, и усилителя, который повышает качество восприятия звука, восстанавливая искажения и расширяя звуковую полосу. Обе модели обучены на высококачественных речевых данных 44,1 кГц.

Четкость видео поднято чем-то другим.

Демо
Гитхаб
OutfitAnyone: вкидываем фото человека и примеряем наряды. Работает разделение по верхней и нижней одежде.

AnyDoor: тут более широкое применение — можно тоже использовать как примерочную, менять объекты местами, или вписывать множество разных объектов в кадр.
Media is too big
VIEW IN TELEGRAM
Holodeck: ваяем целые помещения в 3D c мебелью и другими вещами. Нейронка может менять стиль интерьера и работать с комплексными промтами вроде apartment for a researcher with a cat или office of a professor who is a fan of Star Wars. GPT-4 использует здравый смысл (ага), представляя как сцена может выглядеть, и использует 3D модели из Objaverse, чтобы собрать её.

Если нужно без GPT-4, то можно попробовать заюзать Genie как народ тут делал.

PS: так и тянет прочитать как холодец... до НГ больше недели, а он уже посылает ментальные сигналы из будущего.

Сайт
Гитхаб
grid-2x3.gif
15.9 MB
RAVE: это легкий и быстрый фреймворк для редактирования видео и смены его стиля.

* Работает без обучения (zero-shot)
* Шустрый
* Нет ограничений на длину видео
* Редактирования видео текстом
* Совместимость с готовыми предобученными моделями, например, с CivitAI.

Рекомендуется работать в разрешениях 512x512 или 512x320.

Результат смены стиля где-то выглядит даже получше GEN-1. Ещё из опенсорса на эту тему ловим LAMP, а также Render-a-video.

Сайт
Гитхаб
Простой генератор картинок в схожем стиле на основе модели от гугла.
This media is not supported in your browser
VIEW IN TELEGRAM
Blockade Labs обновили генератор 3D мешей из 360° панорам до версии V2.

* Карты глубины стали проработаннее
* Качество картинки стало лучше
* 4 уровня проработки: low, medium, high, epic
* в режиме epic на 300% больше деталей

Пока доступно только по вейтлисту

YouTube
Сайт
Вышла Midjourney V6. Пока это ранняя альфа-версия, которую 9 месяцев тренировали с нуля, а значит будут огрехи и пока не выйдут в полный релиз делать серьёзные выводы не стоит.

Новшества:
* Более точное следование промтам, в том числе длинным
* Улучшен багаж знаний модели и понимание контекста
* Улучшена генерация на основе изображений
* Надписи теперь лучше отображаются. Выделение их "кавычками" с добавкой --style raw или --stylize на низких значениях может улучшить результат. Пример: /imagine a photo of the text "Hello World!" written with a marker on a sticky note --ar 16:9 --v 6
* апскейлеры 'subtle' and 'creative' выдают разрешение в 2 раза выше (кнопки для этого появляются после нажатия на U1/U2/U3/U4)

Важное:
* Работа с промтами в V6 значительно отличается от V5, придется переучиваться.
* V6 гораздо более чувствителен к промту. Избегайте "мусора" вроде "award winning, photorealistic, 4k, 8k".
* Четко сформулируйте, что вы хотите получить. Возможно, это будет менее атмосферно, однако если четко сформулировать свои пожелания, MJ будет гораздо лучше вас понимать.
* Если вы хотите получить что-то фотореалистичное / буквальное / без примесей MJ, лучше по умолчанию использовать --style raw.
* Низкие значения параметра --stylize (по умолчанию 100) могут улучшить понимание промтов, в то время как высокие значения (до 1000) могут улучшить эстетику.

На с кринах V6 против V5.2. Промт:
35mm film still, two-shot of a 50 year old black man with a grey beard wearing a brown jacket and red scarf standing next to a 20 year old white woman wearing a navy blue and cream houndstooth coat and black knit beanie. They are walking down the middle of the street at midnight, illuminated by the soft orange glow of the street lights --ar 7:5 --style raw --v 6.0


Ну что ж, плёнка у нас есть — теперь нужна камера (SVD, Pika, Runway, итд)
Media is too big
VIEW IN TELEGRAM
Как раз Runway добавили в Motion Brush режим Ambient Motion для анимации окружения (волны, снегопад, огонь, итд). Выделяешь нужное в кадре, задаешь интенсивность, и вуаля.

Ещё они недавно озвучку текста прицепили.
Aphex Twin был королём дипфейков ещё 25+ лет назад. Windowlicker и Come to Daddy выглядят впечатляюще даже сейчас. Раньше такое можно было увидеть по MTV. Причём я помню семплы из Windowlicker играли в официальных рекламных перебивках канала НТВ.

Если вы потеряли HP глядя предыдущие клипы (зато заработали XP для левелапа), держите аптечку от того же клипмейкера, Криса Каннингема:
Madonna — Frozen
Bjork — All Is Full Of Love

Кстати, коллаб Апекса с Крисом выдался очень продуктивным и продолжительным. Они часто тусили вместе вне проектов, и даже в интервью после съёмок клипа для Bjork надели на роботов лица Апекса.
Media is too big
VIEW IN TELEGRAM
Alibaba выпустили RichDreamer, для генерации 3D из текста. Модель натренирована на датасете LIAON-2B и работает в связке с картами нормалей и глубины. Может быть внедрена в существующие пайплайны, где используются NeRF или DMTet, чтобы улучшить получаемую геометрию.

Сайт
Демо
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
PASD — фреймворк для повышения разрешения изображений, смена стиля объектов, а также колоризации.

Гитхаб
Демо (колаб)
Новое в tldraw:

* можно открыть код сгенерированного проекта в Replit, у которых есть и своя нейронка натренированная на коде
* интеграция с p5.js для визуализации на основе JS
* внедрили matplotlib для построения графиков
* улучшения по мелочи
This media is not supported in your browser
VIEW IN TELEGRAM
Tencent выкатила AppAgent, нейронку которая может выполнять задания в любых приложениях на смартфоне (пока только Android). Человек задаёт AI таски простым языком и она их делает имитируя тапы и свайпы. Работает на базе GPT-4V и можно научить новым вещам просто продемонстрировав, что нужно делать. Либо она сама разберётся (кто знает больше фич телеги ты или AI?).

Теперь нейронка может за тебя смотреть ютуб и тикток. Добби свободен!
This media is not supported in your browser
VIEW IN TELEGRAM
Самая быстрая генерация на диком западе — StreamDiffusion.

Стримим диффузию на скорости до 100+ FPS. Под капотом на выбор SD-turbo (быстрее) или LCM-LoRA (медленнее). Можно работать как в режиме text-2-image, так и image-2-image.
Media is too big
VIEW IN TELEGRAM
PIA (Personalized Image Animator) — аниматор изображений, отлично следующий базовой картинке (без отсебятины).

Хорошо поддаётся контролю:
* редактирование объектов в кадре промтом
* задание уровня движения
* смена стиля на основе любой модели с CivitAI
* зацикливание видео

Сайт
Демо
Гитхаб