Нейронавт | Нейросети в творчестве

InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

Оценка глубины по одиночному изображению с помощью нейронных неявных полей. Модель отличается от аналогов несколькими возможностями:

— оценивает глубину в произвольных разрешениях

— даёт детализированную оценку глубины

— улучшает качество синтеза новых ракурсов, особенно при больших изменениях точки обзора

— работает с непрерывными 2D-координатами, а не с дискретными сетками изображений.

Гитхаб код ждем

#image2depth

👍9

2.23K views10:12

Нейронавт | Нейросети в творчестве

VINCIE: Unlocking In-context Image Editing from Video

Контекстный многошаговый редактор картинок от ByteDance, обученный на видео

К осенней модели 3B добавили январскую 7B

Гитхаб
HF

#imageeditning

👍9😁1

2.3K views11:14

Нейронавт | Нейросети в творчестве

Админ поломался..
Постов будет меньше на некоторое время

Но в чате много всего интересного пишут, читать - не перечитать

Вход по ручной модерации, иначе никак

❤18👍10😁6😭2

2.1K views13:56

Нейронавт | Нейросети в творчестве

FLUX.2 [dev] NVFP4

Кому официальный квантизованный FLUX.2 [dev] от BFL?

Выложили NVFP4 и mixed NVFP4/BF16

#nvfp4 #flux2

👍17👀4🔥3❤2😁1

2.57K views09:11

Нейронавт | Нейросети в творчестве

1:12

This media is not supported in your browser

VIEW IN TELEGRAM

1:06

This media is not supported in your browser

VIEW IN TELEGRAM

MOSS-Transcribe-Diarize

Транскрибация речи в текст с определением говорящего и временных меток от китайцев

— работает с аудиозаписями до 90 минут без разделения на фрагменты

— хорошо обобщает и масштабируется

— справляется с шумом и перекрывающимися голосами

— контекст 128 К

— точно известно что знает китайский, японский, английский, по остальным языкам непонятно

Демо HF
Попробовать на офсайте

#transcription #speech2text

👍13🔥5

2.46K views10:13

Нейронавт | Нейросети в творчестве

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

Кажется, я умею сочинять мемы только про комфи

#humor

😁26👍4🔥1💯1

1.86K views11:14

Нейронавт | Нейросети в творчестве

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Лечение афазии моделей, которые хорошо понимают изображения, но не могут их генерировать.

— разделяет одну мультимодальную модель на три роли: Proposer, Solver и Judge

— преобразует скрытое понимание модели в явные сигналы для генерации

— превосходит GPT-4o на бенчмарке DPG

Гитхаб код ждем
HF

#mllm #vlm #text2image

👍10❤3🔥1

2.11K views12:16

Нейронавт | Нейросети в творчестве