Нейронавт | Нейросети в творчестве
11.1K subscribers
4.77K photos
4.12K videos
41 files
5.14K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

Оценка глубины по одиночному изображению с помощью нейронных неявных полей. Модель отличается от аналогов несколькими возможностями:

— оценивает глубину в произвольных разрешениях

— даёт детализированную оценку глубины

— улучшает качество синтеза новых ракурсов, особенно при больших изменениях точки обзора

— работает с непрерывными 2D-координатами, а не с дискретными сетками изображений.

Гитхаб код ждем

#image2depth
👍9
VINCIE: Unlocking In-context Image Editing from Video

Контекстный многошаговый редактор картинок от ByteDance, обученный на видео

К осенней модели 3B добавили январскую 7B

Гитхаб
HF

#imageeditning
👍9😁1
Админ поломался..
Постов будет меньше на некоторое время

Но в чате много всего интересного пишут, читать - не перечитать

Вход по ручной модерации, иначе никак
18👍10😁6😭2
FLUX.2 [dev] NVFP4

Кому официальный квантизованный FLUX.2 [dev] от BFL?

Выложили NVFP4 и mixed NVFP4/BF16

#nvfp4 #flux2
👍17👀4🔥32😁1
MOSS-Transcribe-Diarize

Транскрибация речи в текст с определением говорящего и временных меток от китайцев

— работает с аудиозаписями до 90 минут без разделения на фрагменты

— хорошо обобщает и масштабируется

— справляется с шумом и перекрывающимися голосами

— контекст 128 К

— точно известно что знает китайский, японский, английский, по остальным языкам непонятно

Демо HF
Попробовать на офсайте

#transcription #speech2text
👍13🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Кажется, я умею сочинять мемы только про комфи

#humor
😁26👍4🔥1💯1
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Лечение афазии моделей, которые хорошо понимают изображения, но не могут их генерировать.

— разделяет одну мультимодальную модель на три роли: Proposer, Solver и Judge

— преобразует скрытое понимание модели в явные сигналы для генерации

— превосходит GPT-4o на бенчмарке DPG


Гитхаб код ждем
HF

#mllm #vlm #text2image
👍103🔥1
DreamStyle: A Unified Framework for Video Stylization

Стилизация видео от ByteDance на базе Wan14B-I2V

— стилизует видео по тексту

— стилизует видео, ориентируясь на изображение стиля

— применяет стиль, основываясь на первом кадре

— умеет смешивать несколько стилей

— работает с длинными видео.

Гитхаб код ждем

#styletransfer #referencing #stylization
👍162
Choreographing a World of Dynamic Objects

Модель CHORD превращает статичные 3D-объекты в динамичные 4D-сцены

За видео отвечает Wan 2.2 14B I2V

Кода нет

#animation #3dto4d
1👍5🔥1😁1👀1
Нейронавт | Нейросети в творчестве
Админ поломался.. Постов будет меньше на некоторое время Но в чате много всего интересного пишут, читать - не перечитать Вход по ручной модерации, иначе никак
Грипп это акция бесплатных GPU-часов для вируса. Надеюсь, на мне обсчитывают что-нибудь интересное, а не как у людей 🤩

#humor
Please open Telegram to view this post
VIEW IN TELEGRAM
😁26🤯3👍1👎1👨‍💻1