VINCIE: Unlocking In-context Image Editing from Video
Контекстный многошаговый редактор картинок от ByteDance, обученный на видео
К осенней модели 3B добавили январскую 7B
Гитхаб
HF
#imageeditning
Контекстный многошаговый редактор картинок от ByteDance, обученный на видео
К осенней модели 3B добавили январскую 7B
Гитхаб
HF
#imageeditning
👍9😁1
Админ поломался..
Постов будет меньше на некоторое время
Но в чате много всего интересного пишут, читать - не перечитать
Вход по ручной модерации, иначе никак
Постов будет меньше на некоторое время
Но в чате много всего интересного пишут, читать - не перечитать
Вход по ручной модерации, иначе никак
❤18👍10😁6😭2
FLUX.2 [dev] NVFP4
Кому официальный квантизованный FLUX.2 [dev] от BFL?
Выложили NVFP4 и mixed NVFP4/BF16
#nvfp4 #flux2
Кому официальный квантизованный FLUX.2 [dev] от BFL?
Выложили NVFP4 и mixed NVFP4/BF16
#nvfp4 #flux2
👍17👀4🔥3❤2😁1
MOSS-Transcribe-Diarize
Транскрибация речи в текст с определением говорящего и временных меток от китайцев
— работает с аудиозаписями до 90 минут без разделения на фрагменты
— хорошо обобщает и масштабируется
— справляется с шумом и перекрывающимися голосами
— контекст 128 К
— точно известно что знает китайский, японский, английский, по остальным языкам непонятно
Демо HF
Попробовать на офсайте
#transcription #speech2text
Транскрибация речи в текст с определением говорящего и временных меток от китайцев
— работает с аудиозаписями до 90 минут без разделения на фрагменты
— хорошо обобщает и масштабируется
— справляется с шумом и перекрывающимися голосами
— контекст 128 К
— точно известно что знает китайский, японский, английский, по остальным языкам непонятно
Демо HF
Попробовать на офсайте
#transcription #speech2text
👍13🔥5
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
Лечение афазии моделей, которые хорошо понимают изображения, но не могут их генерировать.
— разделяет одну мультимодальную модель на три роли: Proposer, Solver и Judge
— преобразует скрытое понимание модели в явные сигналы для генерации
— превосходит GPT-4o на бенчмарке DPG
Гитхаб код ждем
HF
#mllm #vlm #text2image
Лечение афазии моделей, которые хорошо понимают изображения, но не могут их генерировать.
— разделяет одну мультимодальную модель на три роли: Proposer, Solver и Judge
— преобразует скрытое понимание модели в явные сигналы для генерации
— превосходит GPT-4o на бенчмарке DPG
Гитхаб код ждем
HF
#mllm #vlm #text2image
👍10❤3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
DreamStyle: A Unified Framework for Video Stylization
Стилизация видео от ByteDance на базе Wan14B-I2V
— стилизует видео по тексту
— стилизует видео, ориентируясь на изображение стиля
— применяет стиль, основываясь на первом кадре
— умеет смешивать несколько стилей
— работает с длинными видео.
Гитхаб код ждем
#styletransfer #referencing #stylization
Стилизация видео от ByteDance на базе Wan14B-I2V
— стилизует видео по тексту
— стилизует видео, ориентируясь на изображение стиля
— применяет стиль, основываясь на первом кадре
— умеет смешивать несколько стилей
— работает с длинными видео.
Гитхаб код ждем
#styletransfer #referencing #stylization
👍16❤2
Choreographing a World of Dynamic Objects
Модель CHORD превращает статичные 3D-объекты в динамичные 4D-сцены
За видео отвечает Wan 2.2 14B I2V
Кода нет
#animation #3dto4d
Модель CHORD превращает статичные 3D-объекты в динамичные 4D-сцены
За видео отвечает Wan 2.2 14B I2V
Кода нет
#animation #3dto4d
1👍5🔥1😁1👀1
Нейронавт | Нейросети в творчестве
Админ поломался.. Постов будет меньше на некоторое время Но в чате много всего интересного пишут, читать - не перечитать Вход по ручной модерации, иначе никак
Грипп это акция бесплатных GPU-часов для вируса. Надеюсь, на мне обсчитывают что-нибудь интересное, а не как у людей 🤩
#humor
#humor
Please open Telegram to view this post
VIEW IN TELEGRAM
😁26🤯3👍1👎1👨💻1
GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation
Авторы GLM и RealVideo разродились гибридным генератором-редактором картинок на базе GLM-4-9B-0414, который сочетает авторегрессионный генератор и диффузионный декодер
Особенно хорошо справляется с заданиями, где нужно точно передать смысл и много деталей
"Хорошо" рендерит текст на картинках (проверим)
Может редактировать, менять стиль, сохранять внешность людей и объектов при генерации, согласовывать несколько персонажей или предметов в одной картинке
HF
Гитхаб
Демо
API
#imageediting
Авторы GLM и RealVideo разродились гибридным генератором-редактором картинок на базе GLM-4-9B-0414, который сочетает авторегрессионный генератор и диффузионный декодер
Особенно хорошо справляется с заданиями, где нужно точно передать смысл и много деталей
"Хорошо" рендерит текст на картинках (проверим)
Может редактировать, менять стиль, сохранять внешность людей и объектов при генерации, согласовывать несколько персонажей или предметов в одной картинке
HF
Гитхаб
Демо
API
#imageediting
🔥10❤4
Qwen-Image-Edit-2511-Gaussian-Splash
Очень интересная лора - служит для починки дырявых искаженных ракурсов, полученных через Sharp (или другие методы 3DGS)
Позволяет не только менять ракурс, но фокусное расстояние, зумиться - все чего мы и хотели от гауссиан. Короче эта лора + Sharp = команда мечты
Видео туториал (youtube) - в полном качестве, и можно включить дубляж на русский
#lora #novelview #qie2511
Очень интересная лора - служит для починки дырявых искаженных ракурсов, полученных через Sharp (или другие методы 3DGS)
Позволяет не только менять ракурс, но фокусное расстояние, зумиться - все чего мы и хотели от гауссиан. Короче эта лора + Sharp = команда мечты
Видео туториал (youtube) - в полном качестве, и можно включить дубляж на русский
#lora #novelview #qie2511
👍18🔥9❤2😱1