Нейронавт | Нейросети в творчестве
11.1K subscribers
4.77K photos
4.12K videos
41 files
5.14K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
MOSS-Transcribe-Diarize

Транскрибация речи в текст с определением говорящего и временных меток от китайцев

— работает с аудиозаписями до 90 минут без разделения на фрагменты

— хорошо обобщает и масштабируется

— справляется с шумом и перекрывающимися голосами

— контекст 128 К

— точно известно что знает китайский, японский, английский, по остальным языкам непонятно

Демо HF
Попробовать на офсайте

#transcription #speech2text
👍13🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Кажется, я умею сочинять мемы только про комфи

#humor
😁26👍4🔥1💯1
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Лечение афазии моделей, которые хорошо понимают изображения, но не могут их генерировать.

— разделяет одну мультимодальную модель на три роли: Proposer, Solver и Judge

— преобразует скрытое понимание модели в явные сигналы для генерации

— превосходит GPT-4o на бенчмарке DPG


Гитхаб код ждем
HF

#mllm #vlm #text2image
👍103🔥1
DreamStyle: A Unified Framework for Video Stylization

Стилизация видео от ByteDance на базе Wan14B-I2V

— стилизует видео по тексту

— стилизует видео, ориентируясь на изображение стиля

— применяет стиль, основываясь на первом кадре

— умеет смешивать несколько стилей

— работает с длинными видео.

Гитхаб код ждем

#styletransfer #referencing #stylization
👍162
Choreographing a World of Dynamic Objects

Модель CHORD превращает статичные 3D-объекты в динамичные 4D-сцены

За видео отвечает Wan 2.2 14B I2V

Кода нет

#animation #3dto4d
1👍5🔥1😁1👀1
Нейронавт | Нейросети в творчестве
Админ поломался.. Постов будет меньше на некоторое время Но в чате много всего интересного пишут, читать - не перечитать Вход по ручной модерации, иначе никак
Грипп это акция бесплатных GPU-часов для вируса. Надеюсь, на мне обсчитывают что-нибудь интересное, а не как у людей 🤩

#humor
Please open Telegram to view this post
VIEW IN TELEGRAM
😁26🤯3👍1👎1👨‍💻1
GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation

Авторы GLM и RealVideo разродились гибридным генератором-редактором картинок на базе GLM-4-9B-0414, который сочетает авторегрессионный генератор и диффузионный декодер

Особенно хорошо справляется с заданиями, где нужно точно передать смысл и много деталей

"Хорошо" рендерит текст на картинках (проверим)

Может редактировать, менять стиль, сохранять внешность людей и объектов при генерации, согласовывать несколько персонажей или предметов в одной картинке

HF
Гитхаб
Демо
API

#imageediting
🔥104
Qwen-Image-Edit-2511-Gaussian-Splash

Очень интересная лора - служит для починки дырявых искаженных ракурсов, полученных через Sharp (или другие методы 3DGS)

Позволяет не только менять ракурс, но фокусное расстояние, зумиться - все чего мы и хотели от гауссиан. Короче эта лора + Sharp = команда мечты

Видео туториал (youtube) - в полном качестве, и можно включить дубляж на русский

#lora #novelview #qie2511
👍18🔥92😱1
This media is not supported in your browser
VIEW IN TELEGRAM
UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass

3D реконструкция сцены и человека по монокулярному видео за один проход

Определяет параметры камеры и SMPL (стандартной модели человеческого тела)

Гитхаб
HF
Демо еще не доделали

#HMR #video2scene #videoto3d
👍8🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

Управляемая видеомодель мира с четким 4D геометрическим контролем камеры и движения нескольких объектов.

За видео отвечает Wan2.1

Гитхаб
HF

#world #cameracontrol #motioncontrol #trajectory #image2video
👍8😁1
Media is too big
VIEW IN TELEGRAM
PixVerse R1

Ну а PixVerse выкатил "первую рилтаймовую" модель мира

— генерирует видео в разрешении до 1080p в реальном времени

— создаёт бесконечный видеопоток благодаря авторегрессивному механизму

— сохраняет физическую согласованность мира в видео даже при длительном воспроизведении

— обрабатывает пространственно-временные фрагменты вместе с текстовыми и аудиоданными

— подходит для создания интерактивных игр, кинематографических опытов, VR/XR-приложений, обучающих сред и симуляций

https://realtime.pixverse.ai/discover/ - Вход по инвайтам

Поклянчить инвайт

#realtime #world #longvideo
🔥4🥴3🤔1