Psy Eyes
6.79K subscribers
1.45K photos
1.57K videos
6 files
1.56K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
DeepFloyd при поддержке Stability AI выпустили новую text-2-image модель — DeepFloyd IF.

По качеству генераций сравнимо с Midjourney или Imagen от Google, но в отличие от них здесь открыт код и хорошо распознаётся текст на картинке.

Есть несколько режимов:
* Генерация по промту
* Стайлтрансфер
* Апскейл (можно юзать IF, а можно Stable 4x)
* Инпейтинг

Причем стайлтрансфер и инпейтинг работают в zero-shot, то есть по одной картинке без трени.

Онлайн демо пока не доступно. Чтобы запустить локально нужна видюха с минимум 16ГБ оперативки. 24ГБ если надумаешь юзать для апскейла. На гитхабе проекта пишут, что есть способы снизить потребление памяти, но все мы понимаем, что не до 1 ГБ. Хотя учитывая вчерашние новости про генерации на мобилках...

Гитхаб
Media is too big
VIEW IN TELEGRAM
Пока самая стилистически выверенная работа, сделанная в Deforum, из тех что я видел.

Автор
ControlNet без промта — UnpromtedControl

Этим инструментом можно восстанавливать и удалять объекты просто выделяя их мышкой.

При восстановлении картинки: если изначально не все трещины/проблемные места определятся, можно вручную набросать и уточнить маску для достижения лучших результатов.

При удалении объектов из кадра: чтобы достичь хороших результатов выделите в маске не только элемент, который хотите удалить, но и его тень.

Если не охота заморачиваться установкой локально, есть демо на колабе. Заходим в верхнем меню в Runtime — Run all, и когда все установки завершатся у вас будет две ссылки: одна для локального запуска, другая для публичного на Gradio. Обе активны в течение 72 часов, потом если что можно перезапустить.

Попробовал вариант с Gradio и работает довольно хорошо.

ГитхабДемоРеддит
DeepFloyd IF вышел в тираж.

Пробуйте и делитесь генерациями в комментах.

Веб-версия
Дайджест за выходные:

📹 ВИДЕО + АРТ 🎨

Graphit: бесплатный всё-в-одном инструмент для работы с изображениями: text2img, img2img, inpating, depth, edge, sketch, и не только.

Edit Everything: выделение и замена текстом объектов в кадре на основе Segment Anything + SD + CLIP.

SEEM: сегментация объектов в кадре мышкой, текстом или реф картинкой. Анонс был 2 недели назад, сейчас код вышел в открытый доступ (пока только на Linux).

MosaicML: воссоздали тренировку Stable Diffusion 2 за $50k и 7,5 дней, что 8 раз дешевле, чем это стоило в оригинале.

🎸 ЗВУК 🎸

Elevenlabs: добавили поддержку генерации голоса по тексту на разных языках (русского пока нет) и скоро добавят конвертацию из одной локализации в другую.

Tango: генерация звука по тексту с высоким показателем качества, хотя натренирована на маленьком датасете. Можно генерить и тренить локально.

🤖 ЧАТЫ 🤖

StableVicuna: Stability AI выпустили анонсированную ранее языковую модель, которая является зафайнтюненой версией Vicuna 13B и натренирована на человеческом фидбэке (RLHF). Также показали превью своего интерфейса для общения с чат-ботами.

MLC LLM: обёртка для запуска любых языковых моделей на разных устройствах, в том числе и на телефонах.

FastChat-T5: модель превосходит Dolly-V2, хотя у неё в 4 раза меньше параметров. Плюс её можно использовать в коммерческом ключе.

Otter: мульти-модальный чат, которому можно скармливать картинки, видео, 3D и получать ответы на свои вопросы. Натренировали на четырёх GTX 3090.

VLog: транскрипция видео в текст для суммаризации и получения ответов в режиме чата. Нужен openai API

LLaMA Adapter V2: фреймворк для расширения возможностей лама-моделей и обучения пониманию изображений.
Automatic1111 обновился и теперь в нём появилась поддержка фич, которые оптимизируют работу на картах с малым объёмом памяти. Говорят прирост производительности 30-60% и чем выше разрешение, тем выше прирост. Что за фичи:

* Torch 2.0 — обновлённая версия PyTorch значительно менее требовательна к памяти.

* ToMe (Token Merging) — объединяем некоторые лишние токены в один, чтобы быстрее их обрабатывать.

* Negative Guidance minimum sigma — уменьшаем CFG до 1 на поздних этапах генерации, чтобы увеличить скорость, не теряя в качестве.

* SDP — перекрестное внимание, аналог xFormers для PyTorch 2, который тоже был для щадящего режима к низкому количеству видеопамяти.

Нашел видос с разъяснениями что включить и где
Forwarded from NeroArt (inck86)
Не А1111 единой генерируемы..

Рекомендую присмотреться к аналогу А1111 - automatic от vladmandic.

Из обнаруженных на данный момент бонусов (уверен, их будет больше):
- Оптимизировано под Torch 2.0 (говорят, даже XFormers теперь не нужны)
- Контролировать Xformers через настройки
- Актуальная поддержка и обновления оболочки
- Возможность контролировать настройки CUDA

Куча мелких приятностей: вынесенный CLIP Skip, предустановленные основные расширения, возможность выбирать предустановленный пак интерфейсов, использовать пути для моделей от А1111 и т.д.

Помимо этого, тесты показали прирост скорости генерации как минимум на 5%.
Из необъективного - генерации в этой оболочке показались более качественными при прочих равных условиях :)

Гайд по установке от камраде Olivio тут https://youtu.be/mtMZGdCjUwQ

Надеюсь, проект будет развиваться - в бешеном вихре развития SD и доп.инструментария - любой застой в апгрейде основного ПО очень чувствуется.
Media is too big
VIEW IN TELEGRAM
Чуваки сделали клип на трек Seeb — Submarine.

В пайплане чего только нет: SD, MJ, ChatGPT, Blender...

Не получалось сгенерить одного и того же персонажа — пригнали на площадку актёра из агентства. Уперлись в проблему консистентности стиля — начали тренировать свою модель на тысячах кадров с целевым стилем. Видюха взмолилась и завыла — купили RTX 4090...когда есть бюджет плюс в тз не сказано генерить тянок, так можно.

Как по мне behind the scenes интереснее самого клипа, но быть может вам зайдёт.

Клип
Реддит
Дайджест новостей, пока ты спал:

📹 ВИДЕО + АРТ 🎨

Perfusion: генерация изображений по тексту с точным следованием промту.

NFL: NeRF рендеринг совместили с LiDAR съёмкой для создания реалистичных сканов из новых точек обзора.

GLaD: синтезирование датасетов в латентном (векторном) пространстве, которые визуально чётче и не так шумны, как пиксельные.

TMR: генерация 3D движения (motion) по текстовому запросу с использованием контрастного обучения.

🤖 ЧАТЫ 🤖

LLaVa Lightning: обучаем свою легковесную мульти-модальную версию GPT-4 за 3 часа и $40.

VPGTrans: переносим уже существующие чат-боты с изображениями между разными моделями, занижая затраты на обучение новых моделей.
Вышла Midjourney V 5.1

- У V5.1 есть своё видение итоговой картинки (opinionated), в этом она ближе к V4. Но её намного проще использовать с короткими промтами
- В V5.1 есть режим и без учета своего мнения (аналогичный стандартному режиму V5) под названием "RAW Mode".
- Обычный V5 по-прежнему доступен.

Другие изменения в V5.1 по сравнению с V5
- Более высокая когерентность
- Более точное следование промту
- Меньше нежелательных границ или артефактов текста
- Улучшенная резкость

Как включить V5.1:
- Зайдите в /settings и нажмите "V5.1" (во второй строке) или введите --v 5.1 в конце промта.
- Для режима RAW нажмите кнопку RAW Mode в разделе /settings (после нажатия на V5.1) или введите --style raw

V 5.1 будет у всех стоять по умолчанию в настройках генерации к концу недели.

На кадрах V5 слева V 5.1 справа, промты в комментах. Как по мне V5 ближе к целевому стилю.

PS кидайте ваши промты в комменты если у вас нет подписки, буду вам пробрасывать.