Нейронавт | Нейросети в творчестве

Taming Hallucinations: Boosting MLLMs’ Video Understanding via Counterfactual Video Generation

Alibaba борется с галлюцинациями мультимодалок на понимании видео. Для этого генерируют для каждого видео пару с поломкой логики и пары вопросов-ответов

Код вероятно будет
Веса вероятно будут

#mllm #vlm #optimization

👍8❤1🔥1

1.65K views10:43

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction

Еще один реконструктор динамических 3D-сцен (4D сцен, получется) из монокулярных видео. Захватывает детали внешнего вида и одновременно обеспечивает плавное движение

Модель использует адаптивное представление Габора — это что-то среднее между гауссианами и габор-функциями, что позволяет балансировать между детализацией и стабильностью изображения

Код ждем

#rendering #video2scene #videoto4d #gaussian #novelview

❤9👍3🔥1

1.7K views12:43

Нейронавт | Нейросети в творчестве

1:43

This media is not supported in your browser

VIEW IN TELEGRAM

Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

Модель от Amazon по текстовой инструкции меняет расположение, поворот и размер объектов на картинке

Код ждем

#imageediting

👍12😱1

1.8K views13:46

Нейронавт | Нейросети в творчестве

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

VINO: A Unified Visual Generator with Interleaved OmniModal Context

Картинко- и видеогенератор / редактор от Kling Team

работает с несколькими источниками данных одновременно — текстом, изображениями, видеоконтекстом

Базовая модель для видеогенерации — HunyuanVideo. Для обработки текста и изображений используется Qwen3-VL

Код ждем. репозиторий называется SOTAMak1r 🤩

#imageediting #videoedititng #referencing

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍6😁2

2.03K views15:18

Нейронавт | Нейросети в творчестве

#humor

👍18😁12❤3🔥2

1.99K views17:37

Нейронавт | Нейросети в творчестве

Biniou

Веб-интерфейс-агрегатор для локальной работы с нейросетками.
Картинки, видео, аудио, LLM - все есть.

Впервые услышал о нем в апреле 2024, тогда на винде он самоуверенно все устанавливал на диск C:

Теперь если вас это не устраивает, можно выбрать другое место установки, для этого используйте способ установки через install_win.cmd

⚠️ Ну и вообще, автор рекомендует сделать перед установкой бэкап системы

Возможно подойдет на смену Pinokio который после переработки у меня не устанавливается, а автор игнорирует мой issue в гитхабе

Спасибо @EvgenyiPerm

#GUI #windows #macos #linux #tools

👍11🔥2😁1🤔1

1.77K viewsedited 08:11

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

LTX-2 Detail Enhancement LoRA

Лора на улучшение детальности для LTX-2

Спасибо @Vvicca1

#ltx2 #lora

👍10🤷‍♂2❤1🔥1

1.99K views10:13

Нейронавт | Нейросети в творчестве

#humor

Алиса не отстает от нейронки гугла, но есть нюанс

#humor

😁61❤1👍1🔥1

2.05K views11:14

Нейронавт | Нейросети в творчестве

NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

Пониматор-генератор-редактор картинок и видео от ByteDance

Работает с текстом и изображениями одновременно. Обрабатывает перемешанные текстовые и визуальные данные и генерирует контент

Быстрый, создает картинки размером 1024x1024 всего за 5 секунд

И вообще #sota на двух бенчах DPG (88.32) и ImgEdit (4.49). Это уровень специализированных диффузных генераторов + рассуждательные способности LLM

Под капотом притаилось что-то основанное на Qwen2.5-VL-7B

Код ждем наверно

#vlm #multimodal #mllm #imageediting #CoT

🔥10👍1

2K views12:16

Нейронавт | Нейросети в творчестве

Собрались интересные люди.
Было интересно вас послушать.
Спасибо всем кто пришел

Надеюсь, продолжим. Возможно в другом формате

Место классное, уютное, мой категорический рекомендасьон для чайных веганских посиделок - https://vk.ru/domdrandom

👍34❤17🔥5🥴2

1.72K views18:24

Нейронавт | Нейросети в творчестве

Orient Anything V2: Unifying Orientation and Rotation Understanding

Модель для понимания ориентации, симметрии и относительного вращения объектов в пространстве

Гитхаб
HF
Демо

#image2pose #image2camera #tracking

👍11❤1

2.06K views08:35

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

HY-World 1.5

Обновился генератор миров от Tencent.
Номер версии не пострадал.

Релизнули WorldPlay-5B на базе WAN
Релизнули код обучения WorldPlay-8B на базе HY Video, можно обучать свои миры
Код инференса получил поддержку квантизации и оптимизацию

Гитхаб
Попробовать на олфсайте - говорят что попробовать могут теперь все без очереди

#text2world #image2world #text2panorama #image2panorama #panorama360 #text2scene #image2scene #world #realtime #finetuning

👍9🔥5

2.04K views09:42

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

Оценка глубины по одиночному изображению с помощью нейронных неявных полей. Модель отличается от аналогов несколькими возможностями:

— оценивает глубину в произвольных разрешениях

— даёт детализированную оценку глубины

— улучшает качество синтеза новых ракурсов, особенно при больших изменениях точки обзора

— работает с непрерывными 2D-координатами, а не с дискретными сетками изображений.

Гитхаб код ждем

#image2depth

👍9

1.93K views10:12

Нейронавт | Нейросети в творчестве

VINCIE: Unlocking In-context Image Editing from Video

Контекстный многошаговый редактор картинок от ByteDance, обученный на видео

К осенней модели 3B добавили январскую 7B

Гитхаб
HF

#imageeditning

👍9😁1

1.92K views11:14

About

Blog

Apps

Platform