Технозаметки Малышева

Huawei повышает качество генерации изображений из текста с помощью CompAgent

Huawei представляет CompAgent для создания изображений на основе сложных текстовых запросов.

CompAgent разбивает сложные запросы на объекты, атрибуты и сценарии и дальше детально прорабатывает каждый из них прежде чем приступать к генерации.
За счёт этого картинки получаются в среднем на 10% более точные, чем у аналогичных моделей.

#Huawei #CompAgent #TextToImage

104 views18:17

На GitHub появился каталог FLUX ресурсов

На GitHub появился курируемый список ресурсов, посвященных FLUX - инновационной модели генерации изображений.

Проект 'awesome-flux' собирает информацию о растущей экосистеме вокруг технологии, разработанной Black Forest Labs.

Flux все популярнее. Про Midjourney скоро можно будет забыть. Не зря подписку отменил год назад.

#FLUX #BlackForestLabs #TextToImage
-------
@tsingular

👍2

4.59K views06:32

Технозаметки Малышева

Forwarded from Machinelearning

✅

CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.

По качеству она конкурирует с flux/lumina.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

Ввод на китайском, и на английском.

Лицензия: Apache 2.0

▪Model: https://huggingface.co/THUDM/CogView4-6B
▪Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
▪Github: https://github.com/THUDM/CogView4
▪Paper: https://arxiv.org/abs/2403.05121

@ai_machinelearning_big_data

#AI #CogView4 #OpenSource #TextToImage

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

✍3

1.08K views15:23

Технозаметки Малышева

2:09

Media is too big

VIEW IN TELEGRAM

🔥 HunyuanImage 3.0 — прорыв в open-source генерации изображений

Tencent выпустили самую мощную открытую модель генерации изображений с 80 млрд параметров (13 млрд активных). Качество сопоставимо с топовыми закрытыми решениями.

Техническая революция:
- MoE архитектура с Transfusion - глубокая интеграция Diffusion + LLM в единую систему
- Массивный датасет: 5 млрд изображений + 6 трлн токенов текста
- Понимание контекста: промпты до 1000 слов с пониманием модели мира
- Точная генерация текста внутри изображений
- Основана на Hunyuan-A13B - мультимодальной LLM

Сейчас доступен только режим text-to-image. В планах: image-to-image, редактирование, мультитерновые диалоги.

Пробуем тут:
https://hunyuan.tencent.com/image/zh
GitHub
HuggingFace (полный вес 170 гигов)

#HunyuanImage #OpenSource #TextToImage
———
@tsingular

⚡3👍3❤2🔥1

5.91K views06:34

About

Blog

Apps

Platform