GLM-4.6V: Open Source Multimodal Models with Native Tool Use
Большая мультимодальная модель с поддержкой использования инструментов.
Понимает визуальный контент напрямую, не переводя в текстовое описание
Контекст 128K
Модель представлена в двух версиях: GLM-4.6V (106B) для облачных и высокопроизводительных кластеров и GLM-4.6V-Flash (9B) для локального развёртывания
GitHub Repository: https://github.com/zai-org/GLM-V
HF: https://huggingface.co/zai-org/GLM-4.6V
Online Demo: https://chat.z.ai/
API Access: Z.ai Open Platform
Desktop Assistant App: https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
#assistant #multimodal #vlm #mllm
Большая мультимодальная модель с поддержкой использования инструментов.
Понимает визуальный контент напрямую, не переводя в текстовое описание
Контекст 128K
Модель представлена в двух версиях: GLM-4.6V (106B) для облачных и высокопроизводительных кластеров и GLM-4.6V-Flash (9B) для локального развёртывания
GitHub Repository: https://github.com/zai-org/GLM-V
HF: https://huggingface.co/zai-org/GLM-4.6V
Online Demo: https://chat.z.ai/
API Access: Z.ai Open Platform
Desktop Assistant App: https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
#assistant #multimodal #vlm #mllm
❤4👍4
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ который мы заслужили
Что-то под названием Halftime. Внедряет рекламу в кино и сериалы так будто это часть сюжета. Персонажи отвлекаются от основного действия чтобы продемонстрировать товар.
Показали пример на «Форс-мажорах» и «Друзьях»
#news
Что-то под названием Halftime. Внедряет рекламу в кино и сериалы так будто это часть сюжета. Персонажи отвлекаются от основного действия чтобы продемонстрировать товар.
Показали пример на «Форс-мажорах» и «Друзьях»
#news
👎17😁11😭5😱3❤2
RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards
Генератор картинок высокого качества на базе FLUX.1-dev + Flow GRPO. Qwen-3 4B в качестве LLM для оптимизации промптов
По реализму превосходит GPT-Image-1, Qwen-Image и FLUX-Krea
Гитхаб
Спасибо @m_franz
#text2image
Генератор картинок высокого качества на базе FLUX.1-dev + Flow GRPO. Qwen-3 4B в качестве LLM для оптимизации промптов
По реализму превосходит GPT-Image-1, Qwen-Image и FLUX-Krea
Гитхаб
Спасибо @m_franz
#text2image
👍23🤔5
jina-vlm
Новая #vlm на 2B параметров на базе Qwen3-1.7B достигла #SOTA в многоязычном VQA, без катастрофического забывания в задачах, связанных только с текстом
HF
#assistant
Новая #vlm на 2B параметров на базе Qwen3-1.7B достигла #SOTA в многоязычном VQA, без катастрофического забывания в задачах, связанных только с текстом
HF
#assistant
👍14❤1
EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture
Мультимодальный пониматор-генератор-редактор картинок от Huawei
Превосходит BAGEL-7B по эффективности и производительности
Достигает уровня Qwen3-VL и Qwen-Image
Код ждем
#vlm #imageediting #text2image
Мультимодальный пониматор-генератор-редактор картинок от Huawei
Превосходит BAGEL-7B по эффективности и производительности
Достигает уровня Qwen3-VL и Qwen-Image
Код ждем
#vlm #imageediting #text2image
❤6👍3🔥2
TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows
Метод обучения одношаговых и малошаговых генеративных моделей.
Современные методы создания малошаговых версий моделей используют дополнительные инструменты — например, вспомогательные дискриминаторы, поддельные оценки или замороженные модели преподавателя. Из-за них растёт потребность в памяти, а обучение становится менее стабильным
TwinFlow же не использует внешние дискриминаторы или замороженные модели. Вместо этого он создаёт «двойную траекторию» внутри себя. Модель преобразует шум в «ложные» данные, создавая сигнал для самокоррекции
На сравнении слева Оригинальный Qwen-Image, справа - TwinFlow-Qwen-Image. Насколько понимаю, тут 2 NFE = 1 шаг
TwinFlow-Qwen-Image-v1.0 уже выложили. Работают над Z-Image-Turbo. Видимо, он станет еще турбее
Гитхаб
HF
#optimization #qwenimage
Метод обучения одношаговых и малошаговых генеративных моделей.
Современные методы создания малошаговых версий моделей используют дополнительные инструменты — например, вспомогательные дискриминаторы, поддельные оценки или замороженные модели преподавателя. Из-за них растёт потребность в памяти, а обучение становится менее стабильным
TwinFlow же не использует внешние дискриминаторы или замороженные модели. Вместо этого он создаёт «двойную траекторию» внутри себя. Модель преобразует шум в «ложные» данные, создавая сигнал для самокоррекции
На сравнении слева Оригинальный Qwen-Image, справа - TwinFlow-Qwen-Image. Насколько понимаю, тут 2 NFE = 1 шаг
TwinFlow-Qwen-Image-v1.0 уже выложили. Работают над Z-Image-Turbo. Видимо, он станет еще турбее
Гитхаб
HF
#optimization #qwenimage
🔥16😱1