InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields
Оценка глубины по одиночному изображению с помощью нейронных неявных полей. Модель отличается от аналогов несколькими возможностями:
— оценивает глубину в произвольных разрешениях
— даёт детализированную оценку глубины
— улучшает качество синтеза новых ракурсов, особенно при больших изменениях точки обзора
— работает с непрерывными 2D-координатами, а не с дискретными сетками изображений.
Гитхаб код ждем
#image2depth
Оценка глубины по одиночному изображению с помощью нейронных неявных полей. Модель отличается от аналогов несколькими возможностями:
— оценивает глубину в произвольных разрешениях
— даёт детализированную оценку глубины
— улучшает качество синтеза новых ракурсов, особенно при больших изменениях точки обзора
— работает с непрерывными 2D-координатами, а не с дискретными сетками изображений.
Гитхаб код ждем
#image2depth
👍9
VINCIE: Unlocking In-context Image Editing from Video
Контекстный многошаговый редактор картинок от ByteDance, обученный на видео
К осенней модели 3B добавили январскую 7B
Гитхаб
HF
#imageeditning
Контекстный многошаговый редактор картинок от ByteDance, обученный на видео
К осенней модели 3B добавили январскую 7B
Гитхаб
HF
#imageeditning
👍9😁1
Админ поломался..
Постов будет меньше на некоторое время
Но в чате много всего интересного пишут, читать - не перечитать
Вход по ручной модерации, иначе никак
Постов будет меньше на некоторое время
Но в чате много всего интересного пишут, читать - не перечитать
Вход по ручной модерации, иначе никак
❤18👍10😁6😭2
FLUX.2 [dev] NVFP4
Кому официальный квантизованный FLUX.2 [dev] от BFL?
Выложили NVFP4 и mixed NVFP4/BF16
#nvfp4 #flux2
Кому официальный квантизованный FLUX.2 [dev] от BFL?
Выложили NVFP4 и mixed NVFP4/BF16
#nvfp4 #flux2
👍17👀4🔥3❤2😁1
MOSS-Transcribe-Diarize
Транскрибация речи в текст с определением говорящего и временных меток от китайцев
— работает с аудиозаписями до 90 минут без разделения на фрагменты
— хорошо обобщает и масштабируется
— справляется с шумом и перекрывающимися голосами
— контекст 128 К
— точно известно что знает китайский, японский, английский, по остальным языкам непонятно
Демо HF
Попробовать на офсайте
#transcription #speech2text
Транскрибация речи в текст с определением говорящего и временных меток от китайцев
— работает с аудиозаписями до 90 минут без разделения на фрагменты
— хорошо обобщает и масштабируется
— справляется с шумом и перекрывающимися голосами
— контекст 128 К
— точно известно что знает китайский, японский, английский, по остальным языкам непонятно
Демо HF
Попробовать на офсайте
#transcription #speech2text
👍13🔥5
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
Лечение афазии моделей, которые хорошо понимают изображения, но не могут их генерировать.
— разделяет одну мультимодальную модель на три роли: Proposer, Solver и Judge
— преобразует скрытое понимание модели в явные сигналы для генерации
— превосходит GPT-4o на бенчмарке DPG
Гитхаб код ждем
HF
#mllm #vlm #text2image
Лечение афазии моделей, которые хорошо понимают изображения, но не могут их генерировать.
— разделяет одну мультимодальную модель на три роли: Proposer, Solver и Judge
— преобразует скрытое понимание модели в явные сигналы для генерации
— превосходит GPT-4o на бенчмарке DPG
Гитхаб код ждем
HF
#mllm #vlm #text2image
👍10❤3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
DreamStyle: A Unified Framework for Video Stylization
Стилизация видео от ByteDance на базе Wan14B-I2V
— стилизует видео по тексту
— стилизует видео, ориентируясь на изображение стиля
— применяет стиль, основываясь на первом кадре
— умеет смешивать несколько стилей
— работает с длинными видео.
Гитхаб код ждем
#styletransfer #referencing #stylization
Стилизация видео от ByteDance на базе Wan14B-I2V
— стилизует видео по тексту
— стилизует видео, ориентируясь на изображение стиля
— применяет стиль, основываясь на первом кадре
— умеет смешивать несколько стилей
— работает с длинными видео.
Гитхаб код ждем
#styletransfer #referencing #stylization
👍16❤2
Choreographing a World of Dynamic Objects
Модель CHORD превращает статичные 3D-объекты в динамичные 4D-сцены
За видео отвечает Wan 2.2 14B I2V
Кода нет
#animation #3dto4d
Модель CHORD превращает статичные 3D-объекты в динамичные 4D-сцены
За видео отвечает Wan 2.2 14B I2V
Кода нет
#animation #3dto4d
1👍5🔥1😁1👀1
Нейронавт | Нейросети в творчестве
Админ поломался.. Постов будет меньше на некоторое время Но в чате много всего интересного пишут, читать - не перечитать Вход по ручной модерации, иначе никак
Грипп это акция бесплатных GPU-часов для вируса. Надеюсь, на мне обсчитывают что-нибудь интересное, а не как у людей 🤩
#humor
#humor
Please open Telegram to view this post
VIEW IN TELEGRAM
😁26🤯3👍1👎1👨💻1