Нейронавт | Нейросети в творчестве
11.1K subscribers
4.76K photos
4.12K videos
41 files
5.13K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
GLM-4.6V: Open Source Multimodal Models with Native Tool Use

Большая мультимодальная модель с поддержкой использования инструментов.
Понимает визуальный контент напрямую, не переводя в текстовое описание
Контекст 128K

Модель представлена в двух версиях: GLM-4.6V (106B) для облачных и высокопроизводительных кластеров и GLM-4.6V-Flash (9B) для локального развёртывания

GitHub Repository: https://github.com/zai-org/GLM-V
HF: https://huggingface.co/zai-org/GLM-4.6V
Online Demo: https://chat.z.ai/
API Access: Z.ai Open Platform
Desktop Assistant App: https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

#assistant #multimodal #vlm #mllm
4👍4
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ который мы заслужили

Что-то под названием Halftime. Внедряет рекламу в кино и сериалы так будто это часть сюжета. Персонажи отвлекаются от основного действия чтобы продемонстрировать товар.

Показали пример на «Форс-мажорах» и «Друзьях»

#news
👎17😁11😭5😱32
RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

Генератор картинок высокого качества на базе FLUX.1-dev + Flow GRPO. Qwen-3 4B в качестве LLM для оптимизации промптов

По реализму превосходит GPT-Image-1, Qwen-Image и FLUX-Krea

Гитхаб

Спасибо @m_franz

#text2image
👍23🤔5
jina-vlm

Новая #vlm на 2B параметров на базе Qwen3-1.7B достигла #SOTA в многоязычном VQA, без катастрофического забывания в задачах, связанных только с текстом

HF

#assistant
👍141
EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

Мультимодальный пониматор-генератор-редактор картинок от Huawei

Превосходит BAGEL-7B по эффективности и производительности
Достигает уровня Qwen3-VL и Qwen-Image

Код ждем

#vlm #imageediting #text2image
6👍3🔥2
TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

Метод обучения одношаговых и малошаговых генеративных моделей.

Современные методы создания малошаговых версий моделей используют дополнительные инструменты — например, вспомогательные дискриминаторы, поддельные оценки или замороженные модели преподавателя. Из-за них растёт потребность в памяти, а обучение становится менее стабильным

TwinFlow же не использует внешние дискриминаторы или замороженные модели. Вместо этого он создаёт «двойную траекторию» внутри себя. Модель преобразует шум в «ложные» данные, создавая сигнал для самокоррекции

На сравнении слева Оригинальный Qwen-Image, справа - TwinFlow-Qwen-Image. Насколько понимаю, тут 2 NFE = 1 шаг

TwinFlow-Qwen-Image-v1.0 уже выложили. Работают над Z-Image-Turbo. Видимо, он станет еще турбее

Гитхаб
HF

#optimization #qwenimage
🔥16😱1