Технозаметки Малышева
8.25K subscribers
3.69K photos
1.38K videos
40 files
3.88K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Huawei повышает качество генерации изображений из текста с помощью CompAgent

Huawei представляет CompAgent для создания изображений на основе сложных текстовых запросов.

CompAgent разбивает сложные запросы на объекты, атрибуты и сценарии и дальше детально прорабатывает каждый из них прежде чем приступать к генерации.
За счёт этого картинки получаются в среднем на 10% более точные, чем у аналогичных моделей.

#Huawei #CompAgent #TextToImage
На GitHub появился каталог FLUX ресурсов

На GitHub появился курируемый список ресурсов, посвященных FLUX - инновационной модели генерации изображений.

Проект 'awesome-flux' собирает информацию о растущей экосистеме вокруг технологии, разработанной Black Forest Labs.

Flux все популярнее. Про Midjourney скоро можно будет забыть. Не зря подписку отменил год назад.

#FLUX #BlackForestLabs #TextToImage
-------
@tsingular
👍2
Forwarded from Machinelearning
CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.

По качеству она конкурирует с flux/lumina.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

Ввод на китайском, и на английском.

Лицензия
: Apache 2.0

Model: https://huggingface.co/THUDM/CogView4-6B
Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Github: https://github.com/THUDM/CogView4
Paper: https://arxiv.org/abs/2403.05121

@ai_machinelearning_big_data


#AI #CogView4 #OpenSource #TextToImage
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Media is too big
VIEW IN TELEGRAM
🔥 HunyuanImage 3.0 — прорыв в open-source генерации изображений

Tencent выпустили самую мощную открытую модель генерации изображений с 80 млрд параметров (13 млрд активных). Качество сопоставимо с топовыми закрытыми решениями.

Техническая революция:
- MoE архитектура с Transfusion - глубокая интеграция Diffusion + LLM в единую систему
- Массивный датасет: 5 млрд изображений + 6 трлн токенов текста
- Понимание контекста: промпты до 1000 слов с пониманием модели мира
- Точная генерация текста внутри изображений
- Основана на Hunyuan-A13B - мультимодальной LLM

Сейчас доступен только режим text-to-image. В планах: image-to-image, редактирование, мультитерновые диалоги.

Пробуем тут:
https://hunyuan.tencent.com/image/zh
GitHub
HuggingFace (полный вес 170 гигов)

#HunyuanImage #OpenSource #TextToImage
———
@tsingular
3👍32🔥1