Нейронавт | Нейросети в творчестве

GLM-4.6V: Open Source Multimodal Models with Native Tool Use

Большая мультимодальная модель с поддержкой использования инструментов.
Понимает визуальный контент напрямую, не переводя в текстовое описание
Контекст 128K

Модель представлена в двух версиях: GLM-4.6V (106B) для облачных и высокопроизводительных кластеров и GLM-4.6V-Flash (9B) для локального развёртывания

GitHub Repository: https://github.com/zai-org/GLM-V
HF: https://huggingface.co/zai-org/GLM-4.6V
Online Demo: https://chat.z.ai/
API Access: Z.ai Open Platform
Desktop Assistant App: https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

#assistant #multimodal #vlm #mllm

❤4👍4

2.05K views07:11

Нейронавт | Нейросети в творчестве

1:11

This media is not supported in your browser

VIEW IN TELEGRAM

ИИ который мы заслужили

Что-то под названием Halftime. Внедряет рекламу в кино и сериалы так будто это часть сюжета. Персонажи отвлекаются от основного действия чтобы продемонстрировать товар.

Показали пример на «Форс-мажорах» и «Друзьях»

#news

👎17😁11😭5😱3❤2

1.81K views10:28

Нейронавт | Нейросети в творчестве

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

Генератор картинок высокого качества на базе FLUX.1-dev + Flow GRPO. Qwen-3 4B в качестве LLM для оптимизации промптов

По реализму превосходит GPT-Image-1, Qwen-Image и FLUX-Krea

Гитхаб

Спасибо @m_franz

#text2image

👍23🤔5

1.97K views11:07

Нейронавт | Нейросети в творчестве

jina-vlm

Новая #vlm на 2B параметров на базе Qwen3-1.7B достигла #SOTA в многоязычном VQA, без катастрофического забывания в задачах, связанных только с текстом

HF

#assistant

👍14❤1

1.79K views12:15

Нейронавт | Нейросети в творчестве

Собираем себе ПК на Новый Год в свой бюджет #humor

#humor

😁55👍4❤2

1.93K views13:17

Нейронавт | Нейросети в творчестве

😁9😭3🤔1

1.66K views14:32

Нейронавт | Нейросети в творчестве

EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

Мультимодальный пониматор-генератор-редактор картинок от Huawei

Превосходит BAGEL-7B по эффективности и производительности
Достигает уровня Qwen3-VL и Qwen-Image

Код ждем

#vlm #imageediting #text2image

❤6👍3🔥2

1.69K views06:13

Нейронавт | Нейросети в творчестве

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

Метод обучения одношаговых и малошаговых генеративных моделей.

Современные методы создания малошаговых версий моделей используют дополнительные инструменты — например, вспомогательные дискриминаторы, поддельные оценки или замороженные модели преподавателя. Из-за них растёт потребность в памяти, а обучение становится менее стабильным

TwinFlow же не использует внешние дискриминаторы или замороженные модели. Вместо этого он создаёт «двойную траекторию» внутри себя. Модель преобразует шум в «ложные» данные, создавая сигнал для самокоррекции

На сравнении слева Оригинальный Qwen-Image, справа - TwinFlow-Qwen-Image. Насколько понимаю, тут 2 NFE = 1 шаг

TwinFlow-Qwen-Image-v1.0 уже выложили. Работают над Z-Image-Turbo. Видимо, он станет еще турбее

Гитхаб
HF

#optimization #qwenimage

🔥16😱1

2.04K views07:11

About

Blog

Apps

Platform