This media is not supported in your browser
VIEW IN TELEGRAM
Taming Hallucinations: Boosting MLLMs’ Video Understanding via Counterfactual Video Generation
Alibaba борется с галлюцинациями мультимодалок на понимании видео. Для этого генерируют для каждого видео пару с поломкой логики и пары вопросов-ответов
Код вероятно будет
Веса вероятно будут
#mllm #vlm #optimization
Alibaba борется с галлюцинациями мультимодалок на понимании видео. Для этого генерируют для каждого видео пару с поломкой логики и пары вопросов-ответов
Код вероятно будет
Веса вероятно будут
#mllm #vlm #optimization
👍8❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction
Еще один реконструктор динамических 3D-сцен (4D сцен, получется) из монокулярных видео. Захватывает детали внешнего вида и одновременно обеспечивает плавное движение
Модель использует адаптивное представление Габора — это что-то среднее между гауссианами и габор-функциями, что позволяет балансировать между детализацией и стабильностью изображения
Код ждем
#rendering #video2scene #videoto4d #gaussian #novelview
Еще один реконструктор динамических 3D-сцен (4D сцен, получется) из монокулярных видео. Захватывает детали внешнего вида и одновременно обеспечивает плавное движение
Модель использует адаптивное представление Габора — это что-то среднее между гауссианами и габор-функциями, что позволяет балансировать между детализацией и стабильностью изображения
Код ждем
#rendering #video2scene #videoto4d #gaussian #novelview
❤9👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes
Модель от Amazon по текстовой инструкции меняет расположение, поворот и размер объектов на картинке
Код ждем
#imageediting
Модель от Amazon по текстовой инструкции меняет расположение, поворот и размер объектов на картинке
Код ждем
#imageediting
👍12😱1
This media is not supported in your browser
VIEW IN TELEGRAM
VINO: A Unified Visual Generator with Interleaved OmniModal Context
Картинко- и видеогенератор / редактор от Kling Team
работает с несколькими источниками данных одновременно — текстом, изображениями, видеоконтекстом
Базовая модель для видеогенерации — HunyuanVideo. Для обработки текста и изображений используется Qwen3-VL
Код ждем. репозиторий называется SOTAMak1r🤩
#imageediting #videoedititng #referencing
Картинко- и видеогенератор / редактор от Kling Team
работает с несколькими источниками данных одновременно — текстом, изображениями, видеоконтекстом
Базовая модель для видеогенерации — HunyuanVideo. Для обработки текста и изображений используется Qwen3-VL
Код ждем. репозиторий называется SOTAMak1r
#imageediting #videoedititng #referencing
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍6😁2
Biniou
Веб-интерфейс-агрегатор для локальной работы с нейросетками.
Картинки, видео, аудио, LLM - все есть.
Впервые услышал о нем в апреле 2024, тогда на винде он самоуверенно все устанавливал на диск C:
Теперь если вас это не устраивает, можно выбрать другое место установки, для этого используйте способ установки через install_win.cmd
⚠️ Ну и вообще, автор рекомендует сделать перед установкой бэкап системы
Возможно подойдет на смену Pinokio который после переработки у меня не устанавливается, а автор игнорирует мой issue в гитхабе
Спасибо @EvgenyiPerm
#GUI #windows #macos #linux #tools
Веб-интерфейс-агрегатор для локальной работы с нейросетками.
Картинки, видео, аудио, LLM - все есть.
Впервые услышал о нем в апреле 2024, тогда на винде он самоуверенно все устанавливал на диск C:
Теперь если вас это не устраивает, можно выбрать другое место установки, для этого используйте способ установки через install_win.cmd
⚠️ Ну и вообще, автор рекомендует сделать перед установкой бэкап системы
Возможно подойдет на смену Pinokio который после переработки у меня не устанавливается, а автор игнорирует мой issue в гитхабе
Спасибо @EvgenyiPerm
#GUI #windows #macos #linux #tools
👍11🔥2😁1🤔1
👍10🤷♂2❤1🔥1
NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation
Пониматор-генератор-редактор картинок и видео от ByteDance
Работает с текстом и изображениями одновременно. Обрабатывает перемешанные текстовые и визуальные данные и генерирует контент
Быстрый, создает картинки размером 1024x1024 всего за 5 секунд
И вообще #sota на двух бенчах DPG (88.32) и ImgEdit (4.49). Это уровень специализированных диффузных генераторов + рассуждательные способности LLM
Под капотом притаилось что-то основанное на Qwen2.5-VL-7B
Код ждем наверно
#vlm #multimodal #mllm #imageediting #CoT
Пониматор-генератор-редактор картинок и видео от ByteDance
Работает с текстом и изображениями одновременно. Обрабатывает перемешанные текстовые и визуальные данные и генерирует контент
Быстрый, создает картинки размером 1024x1024 всего за 5 секунд
И вообще #sota на двух бенчах DPG (88.32) и ImgEdit (4.49). Это уровень специализированных диффузных генераторов + рассуждательные способности LLM
Под капотом притаилось что-то основанное на Qwen2.5-VL-7B
Код ждем наверно
#vlm #multimodal #mllm #imageediting #CoT
🔥10👍1
Собрались интересные люди.
Было интересно вас послушать.
Спасибо всем кто пришел
Надеюсь, продолжим. Возможно в другом формате
Место классное, уютное, мой категорический рекомендасьон для чайных веганских посиделок - https://vk.ru/domdrandom
Было интересно вас послушать.
Спасибо всем кто пришел
Надеюсь, продолжим. Возможно в другом формате
Место классное, уютное, мой категорический рекомендасьон для чайных веганских посиделок - https://vk.ru/domdrandom
👍34❤17🔥5🥴2
Orient Anything V2: Unifying Orientation and Rotation Understanding
Модель для понимания ориентации, симметрии и относительного вращения объектов в пространстве
Гитхаб
HF
Демо
#image2pose #image2camera #tracking
Модель для понимания ориентации, симметрии и относительного вращения объектов в пространстве
Гитхаб
HF
Демо
#image2pose #image2camera #tracking
👍11❤1
This media is not supported in your browser
VIEW IN TELEGRAM
HY-World 1.5
Обновился генератор миров от Tencent.
Номер версии не пострадал.
Релизнули WorldPlay-5B на базе WAN
Релизнули код обучения WorldPlay-8B на базе HY Video, можно обучать свои миры
Код инференса получил поддержку квантизации и оптимизацию
Гитхаб
Попробовать на олфсайте - говорят что попробовать могут теперь все без очереди
#text2world #image2world #text2panorama #image2panorama #panorama360 #text2scene #image2scene #world #realtime #finetuning
Обновился генератор миров от Tencent.
Номер версии не пострадал.
Релизнули WorldPlay-5B на базе WAN
Релизнули код обучения WorldPlay-8B на базе HY Video, можно обучать свои миры
Код инференса получил поддержку квантизации и оптимизацию
Гитхаб
Попробовать на олфсайте - говорят что попробовать могут теперь все без очереди
#text2world #image2world #text2panorama #image2panorama #panorama360 #text2scene #image2scene #world #realtime #finetuning
👍9🔥5
InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields
Оценка глубины по одиночному изображению с помощью нейронных неявных полей. Модель отличается от аналогов несколькими возможностями:
— оценивает глубину в произвольных разрешениях
— даёт детализированную оценку глубины
— улучшает качество синтеза новых ракурсов, особенно при больших изменениях точки обзора
— работает с непрерывными 2D-координатами, а не с дискретными сетками изображений.
Гитхаб код ждем
#image2depth
Оценка глубины по одиночному изображению с помощью нейронных неявных полей. Модель отличается от аналогов несколькими возможностями:
— оценивает глубину в произвольных разрешениях
— даёт детализированную оценку глубины
— улучшает качество синтеза новых ракурсов, особенно при больших изменениях точки обзора
— работает с непрерывными 2D-координатами, а не с дискретными сетками изображений.
Гитхаб код ждем
#image2depth
👍9
VINCIE: Unlocking In-context Image Editing from Video
Контекстный многошаговый редактор картинок от ByteDance, обученный на видео
К осенней модели 3B добавили январскую 7B
Гитхаб
HF
#imageeditning
Контекстный многошаговый редактор картинок от ByteDance, обученный на видео
К осенней модели 3B добавили январскую 7B
Гитхаб
HF
#imageeditning
👍9😁1