Нейронавт | Нейросети в творчестве
11.1K subscribers
4.76K photos
4.12K videos
41 files
5.13K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
CaricatureGS: Exaggerating 3D Gaussian Splatting Faces With Gaussian Curvature

Объемные карикатуры на гауссианах в реальном времени по входному видео с диапазоном ракурсов

Модель преувеличивает черты лица, сохраняя при этом узнаваемость человека, степень преувеличения можно регулировать

Код ждем

#head #gaussian #stylization #video2head
🥴7👍6
AnyDepth: Depth Estimation Made Easy

Генератор глубины для картинок и видео, в основе DINOv3

Гитхаб
HF - еще не выложили

#image2depth #video2depth
👍92🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
SAM3-DMS: Decoupled Memory Selection for Multi-target Video Segmentation of SAM3

Развитие модели SAM 3 для одновременного выделения нескольких объектов в видео

Вместо усреднения по группам оценивает каждый объект отдельно

Гитхаб

#segmentation #video2mask
🔥8👍6
3AM: 3egment Anything with Geometric Consistency in Videos

И еще 3D-базированный сегментатор объектов на видео на MUSt3R и SAM2 с фокусом на работе даже при сильных изменениях ракурса и условиях съёмки

Код ждем
Демо

#segmentation #video2mask
👍9
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Полностью локальная генерация объемных VR-миров прямо внутри Unity в реальном времени.

Интересный проект от подписчика Олега (@heilagr_s)

Для получения честного 6DOF (с возможностью наклоняться и заглядывать за объекты) реализован пайплайн генерации глубины и инпейнтинга окклюзий на лету.

Как это работает:

1. Генерация (Text-to-Image):
– Используется stable-diffusion.cpp через C# биндинги прямо в движке.
– Включен Circular Padding на уровне инференса. Это дает идеальный бесшовный стык краев без пост-процессинга.
– Модель: Z-Image-Turbo + 360° LoRA.

2. Карта глубины:
– Генерируется через Depth Anything V2 с помощью Unity Sentis.

3. Волюметрика и слои:
– Сцена нарезается на 5 слоев на основе гистограммы глубины. Это создает эффект 2.5D, но при разделении слоев за передними объектами образуются пустоты.

4. Инпейнтинг:
– Пустоты на задних планах заполняются через LaMa (также с помощью Unity Sentis). Инпейнтится и цвет, и глубина.

5. Рендеринг:
– Кастомный Raymarching шейдер. Каждый слой имеет свою карту глубины.

Такой подход дает корректный параллакс без резиновых растяжений текстур, свойственных обычному дисплейсменту.

https://www.reddit.com/r/StableDiffusion/comments/1qde674/

@cgevent
👍134
Media is too big
VIEW IN TELEGRAM
Что там у роботов?
Состязаются в езде на лыжах, санках, еще чем-то

Похоже на биатлон. Стопэ, а почему не показывают стрельбища? Какие у них мишени в стрельбищах, я спрашиваю! 🤩

#Robot
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16👍5😱1
FLUX.2 [klein]: Towards Interactive Visual Intelligence

BFL выпустили пачку легких скоростных версий FLUX.2

По разрешению - до 4К.
По функционалу - есть редактрование, мультиреференс


По количеству параметров два типа: 4B и 9B, для каждого из них есть версии Base и Distilled:

Base - медленная, много шагов, но пригодная для дообучения.

Distilled - быстрая, 4 шага

4B влезает в ~13GB VRAM

HF
Демо BFL
Демо HF 9B
Демо HF 4B

#text2image #imageediting #referencing
🔥12👍7🥴1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
Samsung Internet

Самсунг выпустил бета версию своего браузера с ИИ-функциями пересказа и перевода страниц

"доступен в Южной Корее и США"

#news #browser
👍4👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Sparrow-1

Tavus выпустил новую диалоговую рилтаймовую аудио-видео модель (Sparrow-0 тут)

Она создана для работы с видео, где важно, чтобы разговор выглядел естественно

— понимает, кто сейчас «владеет» разговором

— использует потоковое аудио и учитывает контекст, чтобы не было задержек

— обучается под каждого говорящего, подстраиваясь под его темп речи

— учитывает такие вещи, как «э-э», «м-м», незавершённые фразы и явные перебивания

— реагирует мгновенно, когда намерение говорящего понятно, и ждёт, если есть неопределённость

— показала 100% точность и полноту в тестах, не допускает перебиваний, а среднее время отклика составляет 55 мс

— уже доступна в продуктах Tavus, включая API и платформу Tavus

#assistant #voicemode #talkinghead #realtime
👍111
Media is too big
VIEW IN TELEGRAM
ShapeR

Реконструкция 3D сцен от Meta (запрещено в РФ) по набору изображений.
Воссоздает отдельные объекты, а не всю сцену одним куском

Гитхаб
HF

#scenereconstruction #image2scene #imageto3d #3d
👍9🔥5
Step3-VL-10B: Compact Yet Frontier Multimodal Intelligence

Лёгкая мультимодальная модель от Степана с 10B параметров, уровня Gemini 2.5 Pro и Qwen3-VL-235B. Умеет работать с визуальной информацией, решать сложные задачи и подстраиваться под нужды человека

В качестве декодера Qwen3-8B

Гитхаб
HF
MS

#mllm #vlm #assistant
👍12😁3🔥1
FlowAct-R1: Towards Interactive Humanoid Video Generation

Генератор реалистичного персонажного видео для взаимодействия в рилтайме от ByteDance

— видео любой длительности

— выдаёт видео в режиме реального времени с частотой 25 кадров в секунду и разрешением 480p

— время до отображения первого кадра — около 1,5 секунды

— создаёт естественные переходы между разными состояниями взаимодействия

— работает с разными стилями персонажей и движений

— хорошо синхронизирует движения и речь

Кода/весов нет

#talkinghead #characteranimation #realtime #research
👍8👀32👎1🔥1