Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Osprey — выделяем объекты на картинках и получаем текстовое описание. Под капотом модели сегментатор SAM и она может работать в режимах выделения точкой, коробкой или общей сегментации.

Демо (логин и пароль osprey)
Гитхаб
Простой инструмент для вписывания лица в нужный контекст, который работает на основе SDXL.
This media is not supported in your browser
VIEW IN TELEGRAM
Amphion: меняем голос артиста на целевой. Из коробки доступно 15 вариантов, а натренировано всё на более, чем 6 ч аудиозаписей (что не много). Есть Adele, Beyonce, Bruno Mars, Michael Jackson, Taylor Swift, и другие, в основном китайские певцы.

Также можно генерить музыку, звуки, и озвучку с визуализацией полученного.

Лучше давать на вход чистый голос без музыки, потому что иначе будет очень много шумов. С песнями на русском пока не работает, но код открыт и народ научит.

Лицензия MIT (свободное коммерческое и некоммерческое использование), что удивительно.

Демо (смена вокалиста)
Демо (генерация текста нужным голосом)
Гитхаб
1
Дайджест:

📹 ВИДЕО + АРТ 🎨

A1111 обновился до v 1.7. Появилась поддержка SD Turbo, ускорение на 40% через HyperTile и не только.

AnimateDiff обновился до V3.

Gradio: подтянули поддержку LCM. Правда пока версии SD 1.5.

AMD и HuggingFace: адаптировали разные библиотеки для ускорения работы на новом серверном железе на базе Instinct.

Новая улучшалка для SDXL — Direct Preference Optimization (DPO). Делает генерации ближе к промту. Помимо версии для SDXL, есть версия для SD 1.5

Также появилась демка другой улучшалки - FreeInit. Можно попробовать скидывать Pika или Runway для генерации в качестве на основе прототипов.

VolumeDiffusion: генерим 3D объекты по тексту.

GeoDream: тоже генератор 3D, но с поддержкой Stable Zero123.

Marigold: получение карты глубины поженили с 3D принтингом.

3DLFM: получаем 3D каркас объектов из 2D картинки.

Shap-Editor: переносим стиль одного 3D объекта на другой как целиком, так и частично.

DreamDrone: генерим пролёты дрона.

UDiffText: ставим надписи на картинках.

TextDiffuser-2: тоже генератор подписей.

SlimSAM: получаем сегментацию на уровне оригинального SAM, используя всего 0,1% данных.

GLEE: сегментируем много объектов на картинках и видео.

SlimNeRF: оптимизация нерфов для работы на мобилках и маломощном железе.

Apple: представили исследование FastSR-NeRF по улучшению работы нерфов на потребительских устройствах.

HAAR: генерация причёски по тексту. Кода нет.

Google
: показали TIP, инструмент для восстановления зашакаленных картинок через текстовое описание того, что в кадре должно быть. Кода нет.

Также они показали VideoPoet, языковую модель для генерации видео без обучения. Учитывая, что Google год назад тоже показывали text-2-video модель, но так ничего и не выпустили, а сейчас у них гора конкурентов особенно в опенсорс, веры в эту модель мало. Кода нет.

🎸 ЗВУК 🎸

Microsoft: добавили генератор песен Suno в свой Copilot в виде плагина на боковой панели.

SeamlessM4T: демо переводчика голосовых записей на разные языки, включая русский.

🤖 ЧАТЫ 🤖

Mixtral только вышла, а народ уже вовсю пилит на её основе новые модели: Dolphin: версия без цензуры, в которой также улучшена работа с кодом. Вот видос на эту тему и GPTQ от Bloke. Плюс блог пост от автора.

OpenAI: выпустили гайд по составлению промтов для GPT-4. Для тех, кто пользуется давно в целом ничего нового. А новичкам будет полезно. В двух словах - модель не умеет читать ваши мысли, максимально точно описывайте что вы хотите получить и в каком формате. Если есть опорные доки/тексты/код/скриншоты - скармливайте ей. Народ уже обучил GPT на эту тему.

Microsoft: выпустили инструмент LLMLingua для сжатия промтов до нужного количества токенов и ускорения инференса.

Apple: представили LLM in a flash для оптимизации запуска языковых моделей на мобильных устройствах.

Используем DeciLM-7B-instruct в связке с LangChain для создания своего бота, чтобы чатиться по PDF'кам.

CALM2-7B: полку маленьких, но способных моделей прибыло.

CogAgent: это AI-агент на основе CogVLM для чата по визуалу.

FLAIR: датасет из 20 млрд снимков земли со спутников.

Инструмент для миграции датасета с Github на Hugging Face

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
15
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance: показали модель StemGen, которая может понимать контекст музыки и генерить стемы, подходящие по гармонии. Их можно микшировать с предыдущими инструментами и так собирать трек по слоям.

Токенайзер используется от AudioCraft. Несколько напоминает VampNet, а также SoundStorm.

На втором видео пример музыкального устройства с 4 каналами. По клику на робота нейронке подаётся текущий смикшированный луп, который она использует в качестве контекста для генерации стема в интересующем жанре или виде.

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Resemble Enhance — инструмент на базе AI для улучшения звучания речи. Он состоит из двух модулей: денойзера, который отделяет голос от зашумленного аудио, и усилителя, который повышает качество восприятия звука, восстанавливая искажения и расширяя звуковую полосу. Обе модели обучены на высококачественных речевых данных 44,1 кГц.

Четкость видео поднято чем-то другим.

Демо
Гитхаб
OutfitAnyone: вкидываем фото человека и примеряем наряды. Работает разделение по верхней и нижней одежде.

AnyDoor: тут более широкое применение — можно тоже использовать как примерочную, менять объекты местами, или вписывать множество разных объектов в кадр.
Media is too big
VIEW IN TELEGRAM
Holodeck: ваяем целые помещения в 3D c мебелью и другими вещами. Нейронка может менять стиль интерьера и работать с комплексными промтами вроде apartment for a researcher with a cat или office of a professor who is a fan of Star Wars. GPT-4 использует здравый смысл (ага), представляя как сцена может выглядеть, и использует 3D модели из Objaverse, чтобы собрать её.

Если нужно без GPT-4, то можно попробовать заюзать Genie как народ тут делал.

PS: так и тянет прочитать как холодец... до НГ больше недели, а он уже посылает ментальные сигналы из будущего.

Сайт
Гитхаб
grid-2x3.gif
15.9 MB
RAVE: это легкий и быстрый фреймворк для редактирования видео и смены его стиля.

* Работает без обучения (zero-shot)
* Шустрый
* Нет ограничений на длину видео
* Редактирования видео текстом
* Совместимость с готовыми предобученными моделями, например, с CivitAI.

Рекомендуется работать в разрешениях 512x512 или 512x320.

Результат смены стиля где-то выглядит даже получше GEN-1. Ещё из опенсорса на эту тему ловим LAMP, а также Render-a-video.

Сайт
Гитхаб
Простой генератор картинок в схожем стиле на основе модели от гугла.
This media is not supported in your browser
VIEW IN TELEGRAM
Blockade Labs обновили генератор 3D мешей из 360° панорам до версии V2.

* Карты глубины стали проработаннее
* Качество картинки стало лучше
* 4 уровня проработки: low, medium, high, epic
* в режиме epic на 300% больше деталей

Пока доступно только по вейтлисту

YouTube
Сайт
Вышла Midjourney V6. Пока это ранняя альфа-версия, которую 9 месяцев тренировали с нуля, а значит будут огрехи и пока не выйдут в полный релиз делать серьёзные выводы не стоит.

Новшества:
* Более точное следование промтам, в том числе длинным
* Улучшен багаж знаний модели и понимание контекста
* Улучшена генерация на основе изображений
* Надписи теперь лучше отображаются. Выделение их "кавычками" с добавкой --style raw или --stylize на низких значениях может улучшить результат. Пример: /imagine a photo of the text "Hello World!" written with a marker on a sticky note --ar 16:9 --v 6
* апскейлеры 'subtle' and 'creative' выдают разрешение в 2 раза выше (кнопки для этого появляются после нажатия на U1/U2/U3/U4)

Важное:
* Работа с промтами в V6 значительно отличается от V5, придется переучиваться.
* V6 гораздо более чувствителен к промту. Избегайте "мусора" вроде "award winning, photorealistic, 4k, 8k".
* Четко сформулируйте, что вы хотите получить. Возможно, это будет менее атмосферно, однако если четко сформулировать свои пожелания, MJ будет гораздо лучше вас понимать.
* Если вы хотите получить что-то фотореалистичное / буквальное / без примесей MJ, лучше по умолчанию использовать --style raw.
* Низкие значения параметра --stylize (по умолчанию 100) могут улучшить понимание промтов, в то время как высокие значения (до 1000) могут улучшить эстетику.

На с кринах V6 против V5.2. Промт:
35mm film still, two-shot of a 50 year old black man with a grey beard wearing a brown jacket and red scarf standing next to a 20 year old white woman wearing a navy blue and cream houndstooth coat and black knit beanie. They are walking down the middle of the street at midnight, illuminated by the soft orange glow of the street lights --ar 7:5 --style raw --v 6.0


Ну что ж, плёнка у нас есть — теперь нужна камера (SVD, Pika, Runway, итд)
Media is too big
VIEW IN TELEGRAM
Как раз Runway добавили в Motion Brush режим Ambient Motion для анимации окружения (волны, снегопад, огонь, итд). Выделяешь нужное в кадре, задаешь интенсивность, и вуаля.

Ещё они недавно озвучку текста прицепили.