DeepFloyd при поддержке Stability AI выпустили новую text-2-image модель — DeepFloyd IF.
По качеству генераций сравнимо с Midjourney или Imagen от Google, но в отличие от них здесь открыт код и хорошо распознаётся текст на картинке.
Есть несколько режимов:
* Генерация по промту
* Стайлтрансфер
* Апскейл (можно юзать IF, а можно Stable 4x)
* Инпейтинг
Причем стайлтрансфер и инпейтинг работают в zero-shot, то есть по одной картинке без трени.
Онлайн демо пока не доступно. Чтобы запустить локально нужна видюха с минимум 16ГБ оперативки. 24ГБ если надумаешь юзать для апскейла. На гитхабе проекта пишут, что есть способы снизить потребление памяти, но все мы понимаем, что не до 1 ГБ. Хотя учитывая вчерашние новости про генерации на мобилках...
Гитхаб
По качеству генераций сравнимо с Midjourney или Imagen от Google, но в отличие от них здесь открыт код и хорошо распознаётся текст на картинке.
Есть несколько режимов:
* Генерация по промту
* Стайлтрансфер
* Апскейл (можно юзать IF, а можно Stable 4x)
* Инпейтинг
Причем стайлтрансфер и инпейтинг работают в zero-shot, то есть по одной картинке без трени.
Онлайн демо пока не доступно. Чтобы запустить локально нужна видюха с минимум 16ГБ оперативки. 24ГБ если надумаешь юзать для апскейла. На гитхабе проекта пишут, что есть способы снизить потребление памяти, но все мы понимаем, что не до 1 ГБ. Хотя учитывая вчерашние новости про генерации на мобилках...
Гитхаб
ControlNet без промта — UnpromtedControl
Этим инструментом можно восстанавливать и удалять объекты просто выделяя их мышкой.
При восстановлении картинки: если изначально не все трещины/проблемные места определятся, можно вручную набросать и уточнить маску для достижения лучших результатов.
При удалении объектов из кадра: чтобы достичь хороших результатов выделите в маске не только элемент, который хотите удалить, но и его тень.
Если не охота заморачиваться установкой локально, есть демо на колабе. Заходим в верхнем меню в Runtime — Run all, и когда все установки завершатся у вас будет две ссылки: одна для локального запуска, другая для публичного на Gradio. Обе активны в течение 72 часов, потом если что можно перезапустить.
Попробовал вариант с Gradio и работает довольно хорошо.
Гитхаб — Демо — Реддит
Этим инструментом можно восстанавливать и удалять объекты просто выделяя их мышкой.
При восстановлении картинки: если изначально не все трещины/проблемные места определятся, можно вручную набросать и уточнить маску для достижения лучших результатов.
При удалении объектов из кадра: чтобы достичь хороших результатов выделите в маске не только элемент, который хотите удалить, но и его тень.
Если не охота заморачиваться установкой локально, есть демо на колабе. Заходим в верхнем меню в Runtime — Run all, и когда все установки завершатся у вас будет две ссылки: одна для локального запуска, другая для публичного на Gradio. Обе активны в течение 72 часов, потом если что можно перезапустить.
Попробовал вариант с Gradio и работает довольно хорошо.
Гитхаб — Демо — Реддит
Дайджест за выходные:
📹 ВИДЕО + АРТ 🎨
Graphit: бесплатный всё-в-одном инструмент для работы с изображениями: text2img, img2img, inpating, depth, edge, sketch, и не только.
Edit Everything: выделение и замена текстом объектов в кадре на основе Segment Anything + SD + CLIP.
SEEM: сегментация объектов в кадре мышкой, текстом или реф картинкой. Анонс был 2 недели назад, сейчас код вышел в открытый доступ (пока только на Linux).
MosaicML: воссоздали тренировку Stable Diffusion 2 за $50k и 7,5 дней, что 8 раз дешевле, чем это стоило в оригинале.
🎸 ЗВУК 🎸
Elevenlabs: добавили поддержку генерации голоса по тексту на разных языках (русского пока нет) и скоро добавят конвертацию из одной локализации в другую.
Tango: генерация звука по тексту с высоким показателем качества, хотя натренирована на маленьком датасете. Можно генерить и тренить локально.
🤖 ЧАТЫ 🤖
StableVicuna: Stability AI выпустили анонсированную ранее языковую модель, которая является зафайнтюненой версией Vicuna 13B и натренирована на человеческом фидбэке (RLHF). Также показали превью своего интерфейса для общения с чат-ботами.
MLC LLM: обёртка для запуска любых языковых моделей на разных устройствах, в том числе и на телефонах.
FastChat-T5: модель превосходит Dolly-V2, хотя у неё в 4 раза меньше параметров. Плюс её можно использовать в коммерческом ключе.
Otter: мульти-модальный чат, которому можно скармливать картинки, видео, 3D и получать ответы на свои вопросы. Натренировали на четырёх GTX 3090.
VLog: транскрипция видео в текст для суммаризации и получения ответов в режиме чата. Нужен openai API
LLaMA Adapter V2: фреймворк для расширения возможностей лама-моделей и обучения пониманию изображений.
📹 ВИДЕО + АРТ 🎨
Graphit: бесплатный всё-в-одном инструмент для работы с изображениями: text2img, img2img, inpating, depth, edge, sketch, и не только.
Edit Everything: выделение и замена текстом объектов в кадре на основе Segment Anything + SD + CLIP.
SEEM: сегментация объектов в кадре мышкой, текстом или реф картинкой. Анонс был 2 недели назад, сейчас код вышел в открытый доступ (пока только на Linux).
MosaicML: воссоздали тренировку Stable Diffusion 2 за $50k и 7,5 дней, что 8 раз дешевле, чем это стоило в оригинале.
🎸 ЗВУК 🎸
Elevenlabs: добавили поддержку генерации голоса по тексту на разных языках (русского пока нет) и скоро добавят конвертацию из одной локализации в другую.
Tango: генерация звука по тексту с высоким показателем качества, хотя натренирована на маленьком датасете. Можно генерить и тренить локально.
🤖 ЧАТЫ 🤖
StableVicuna: Stability AI выпустили анонсированную ранее языковую модель, которая является зафайнтюненой версией Vicuna 13B и натренирована на человеческом фидбэке (RLHF). Также показали превью своего интерфейса для общения с чат-ботами.
MLC LLM: обёртка для запуска любых языковых моделей на разных устройствах, в том числе и на телефонах.
FastChat-T5: модель превосходит Dolly-V2, хотя у неё в 4 раза меньше параметров. Плюс её можно использовать в коммерческом ключе.
Otter: мульти-модальный чат, которому можно скармливать картинки, видео, 3D и получать ответы на свои вопросы. Натренировали на четырёх GTX 3090.
VLog: транскрипция видео в текст для суммаризации и получения ответов в режиме чата. Нужен openai API
LLaMA Adapter V2: фреймворк для расширения возможностей лама-моделей и обучения пониманию изображений.
Automatic1111 обновился и теперь в нём появилась поддержка фич, которые оптимизируют работу на картах с малым объёмом памяти. Говорят прирост производительности 30-60% и чем выше разрешение, тем выше прирост. Что за фичи:
* Torch 2.0 — обновлённая версия PyTorch значительно менее требовательна к памяти.
* ToMe (Token Merging) — объединяем некоторые лишние токены в один, чтобы быстрее их обрабатывать.
* Negative Guidance minimum sigma — уменьшаем CFG до 1 на поздних этапах генерации, чтобы увеличить скорость, не теряя в качестве.
* SDP — перекрестное внимание, аналог xFormers для PyTorch 2, который тоже был для щадящего режима к низкому количеству видеопамяти.
Нашел видос с разъяснениями что включить и где
* Torch 2.0 — обновлённая версия PyTorch значительно менее требовательна к памяти.
* ToMe (Token Merging) — объединяем некоторые лишние токены в один, чтобы быстрее их обрабатывать.
* Negative Guidance minimum sigma — уменьшаем CFG до 1 на поздних этапах генерации, чтобы увеличить скорость, не теряя в качестве.
* SDP — перекрестное внимание, аналог xFormers для PyTorch 2, который тоже был для щадящего режима к низкому количеству видеопамяти.
Нашел видос с разъяснениями что включить и где
YouTube
Быстрее на 40% / Обновление Automatic1111 / Stable Diffusion
В данном видео я расскажу об основных нововведениях крупного обновления Automatic1111 от 1 мая 2023 года. Разберем способы ускорения генерации, как включить новые оптимизации (ToMe и unCond) и проведем тестирование.
Мой телеграм канал: https://xn--r1a.website/neurogenerated…
Мой телеграм канал: https://xn--r1a.website/neurogenerated…
Forwarded from NeroArt (inck86)
Не А1111 единой генерируемы..
Рекомендую присмотреться к аналогу А1111 - automatic от vladmandic.
Из обнаруженных на данный момент бонусов (уверен, их будет больше):
- Оптимизировано под Torch 2.0 (говорят, даже XFormers теперь не нужны)
- Контролировать Xformers через настройки
- Актуальная поддержка и обновления оболочки
- Возможность контролировать настройки CUDA
Куча мелких приятностей: вынесенный CLIP Skip, предустановленные основные расширения, возможность выбирать предустановленный пак интерфейсов, использовать пути для моделей от А1111 и т.д.
Помимо этого, тесты показали прирост скорости генерации как минимум на 5%.
Из необъективного - генерации в этой оболочке показались более качественными при прочих равных условиях :)
Гайд по установке от камраде Olivio тут https://youtu.be/mtMZGdCjUwQ
Надеюсь, проект будет развиваться - в бешеном вихре развития SD и доп.инструментария - любой застой в апгрейде основного ПО очень чувствуется.
Рекомендую присмотреться к аналогу А1111 - automatic от vladmandic.
Из обнаруженных на данный момент бонусов (уверен, их будет больше):
- Оптимизировано под Torch 2.0 (говорят, даже XFormers теперь не нужны)
- Контролировать Xformers через настройки
- Актуальная поддержка и обновления оболочки
- Возможность контролировать настройки CUDA
Куча мелких приятностей: вынесенный CLIP Skip, предустановленные основные расширения, возможность выбирать предустановленный пак интерфейсов, использовать пути для моделей от А1111 и т.д.
Помимо этого, тесты показали прирост скорости генерации как минимум на 5%.
Из необъективного - генерации в этой оболочке показались более качественными при прочих равных условиях :)
Гайд по установке от камраде Olivio тут https://youtu.be/mtMZGdCjUwQ
Надеюсь, проект будет развиваться - в бешеном вихре развития SD и доп.инструментария - любой застой в апгрейде основного ПО очень чувствуется.
GitHub
GitHub - vladmandic/sdnext: SD.Next: All-in-one WebUI for AI generative image and video creation, captioning and processing
SD.Next: All-in-one WebUI for AI generative image and video creation, captioning and processing - vladmandic/sdnext
Forwarded from NeroArt (inck86)
NeroArt
Не А1111 единой генерируемы.. Рекомендую присмотреться к аналогу А1111 - automatic от vladmandic. Из обнаруженных на данный момент бонусов (уверен, их будет больше): - Оптимизировано под Torch 2.0 (говорят, даже XFormers теперь не нужны) - Контролировать…
для создания батника с автообновлением + автозапуском в браузере:
Создать файл
@echo off
git pull
webui --autolaunch
Создать файл
webui-user.bat и вписать в него:@echo off
git pull
webui --autolaunch
Media is too big
VIEW IN TELEGRAM
Чуваки сделали клип на трек Seeb — Submarine.
В пайплане чего только нет: SD, MJ, ChatGPT, Blender...
Не получалось сгенерить одного и того же персонажа — пригнали на площадку актёра из агентства. Уперлись в проблему консистентности стиля — начали тренировать свою модель на тысячах кадров с целевым стилем. Видюха взмолилась и завыла — купили RTX 4090...когда есть бюджет плюс в тз не сказано генерить тянок, так можно.
Как по мне behind the scenes интереснее самого клипа, но быть может вам зайдёт.
Клип
Реддит
В пайплане чего только нет: SD, MJ, ChatGPT, Blender...
Не получалось сгенерить одного и того же персонажа — пригнали на площадку актёра из агентства. Уперлись в проблему консистентности стиля — начали тренировать свою модель на тысячах кадров с целевым стилем. Видюха взмолилась и завыла — купили RTX 4090...когда есть бюджет плюс в тз не сказано генерить тянок, так можно.
Как по мне behind the scenes интереснее самого клипа, но быть может вам зайдёт.
Клип
Реддит
Дайджест новостей, пока ты спал:
📹 ВИДЕО + АРТ 🎨
Perfusion: генерация изображений по тексту с точным следованием промту.
NFL: NeRF рендеринг совместили с LiDAR съёмкой для создания реалистичных сканов из новых точек обзора.
GLaD: синтезирование датасетов в латентном (векторном) пространстве, которые визуально чётче и не так шумны, как пиксельные.
TMR: генерация 3D движения (motion) по текстовому запросу с использованием контрастного обучения.
🤖 ЧАТЫ 🤖
LLaVa Lightning: обучаем свою легковесную мульти-модальную версию GPT-4 за 3 часа и $40.
VPGTrans: переносим уже существующие чат-боты с изображениями между разными моделями, занижая затраты на обучение новых моделей.
📹 ВИДЕО + АРТ 🎨
Perfusion: генерация изображений по тексту с точным следованием промту.
NFL: NeRF рендеринг совместили с LiDAR съёмкой для создания реалистичных сканов из новых точек обзора.
GLaD: синтезирование датасетов в латентном (векторном) пространстве, которые визуально чётче и не так шумны, как пиксельные.
TMR: генерация 3D движения (motion) по текстовому запросу с использованием контрастного обучения.
🤖 ЧАТЫ 🤖
LLaVa Lightning: обучаем свою легковесную мульти-модальную версию GPT-4 за 3 часа и $40.
VPGTrans: переносим уже существующие чат-боты с изображениями между разными моделями, занижая затраты на обучение новых моделей.
Вышла Midjourney V 5.1
- У V5.1 есть своё видение итоговой картинки (opinionated), в этом она ближе к V4. Но её намного проще использовать с короткими промтами
- В V5.1 есть режим и без учета своего мнения (аналогичный стандартному режиму V5) под названием "RAW Mode".
- Обычный V5 по-прежнему доступен.
Другие изменения в V5.1 по сравнению с V5
- Более высокая когерентность
- Более точное следование промту
- Меньше нежелательных границ или артефактов текста
- Улучшенная резкость
Как включить V5.1:
- Зайдите в /settings и нажмите "V5.1" (во второй строке) или введите --v 5.1 в конце промта.
- Для режима RAW нажмите кнопку RAW Mode в разделе /settings (после нажатия на V5.1) или введите --style raw
V 5.1 будет у всех стоять по умолчанию в настройках генерации к концу недели.
На кадрах V5 слева V 5.1 справа, промты в комментах. Как по мне V5 ближе к целевому стилю.
PS кидайте ваши промты в комменты если у вас нет подписки, буду вам пробрасывать.
- У V5.1 есть своё видение итоговой картинки (opinionated), в этом она ближе к V4. Но её намного проще использовать с короткими промтами
- В V5.1 есть режим и без учета своего мнения (аналогичный стандартному режиму V5) под названием "RAW Mode".
- Обычный V5 по-прежнему доступен.
Другие изменения в V5.1 по сравнению с V5
- Более высокая когерентность
- Более точное следование промту
- Меньше нежелательных границ или артефактов текста
- Улучшенная резкость
Как включить V5.1:
- Зайдите в /settings и нажмите "V5.1" (во второй строке) или введите --v 5.1 в конце промта.
- Для режима RAW нажмите кнопку RAW Mode в разделе /settings (после нажатия на V5.1) или введите --style raw
V 5.1 будет у всех стоять по умолчанию в настройках генерации к концу недели.
На кадрах V5 слева V 5.1 справа, промты в комментах. Как по мне V5 ближе к целевому стилю.
PS кидайте ваши промты в комменты если у вас нет подписки, буду вам пробрасывать.