CaricatureGS: Exaggerating 3D Gaussian Splatting Faces With Gaussian Curvature
Объемные карикатуры на гауссианах в реальном времени по входному видео с диапазоном ракурсов
Модель преувеличивает черты лица, сохраняя при этом узнаваемость человека, степень преувеличения можно регулировать
Код ждем
#head #gaussian #stylization #video2head
Объемные карикатуры на гауссианах в реальном времени по входному видео с диапазоном ракурсов
Модель преувеличивает черты лица, сохраняя при этом узнаваемость человека, степень преувеличения можно регулировать
Код ждем
#head #gaussian #stylization #video2head
🥴7👍6
AnyDepth: Depth Estimation Made Easy
Генератор глубины для картинок и видео, в основе DINOv3
Гитхаб
HF - еще не выложили
#image2depth #video2depth
Генератор глубины для картинок и видео, в основе DINOv3
Гитхаб
HF - еще не выложили
#image2depth #video2depth
👍9❤2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
SAM3-DMS: Decoupled Memory Selection for Multi-target Video Segmentation of SAM3
Развитие модели SAM 3 для одновременного выделения нескольких объектов в видео
Вместо усреднения по группам оценивает каждый объект отдельно
Гитхаб
#segmentation #video2mask
Развитие модели SAM 3 для одновременного выделения нескольких объектов в видео
Вместо усреднения по группам оценивает каждый объект отдельно
Гитхаб
#segmentation #video2mask
🔥8👍6
3AM: 3egment Anything with Geometric Consistency in Videos
И еще 3D-базированный сегментатор объектов на видео на MUSt3R и SAM2 с фокусом на работе даже при сильных изменениях ракурса и условиях съёмки
Код ждем
Демо
#segmentation #video2mask
И еще 3D-базированный сегментатор объектов на видео на MUSt3R и SAM2 с фокусом на работе даже при сильных изменениях ракурса и условиях съёмки
Код ждем
Демо
#segmentation #video2mask
👍9
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Полностью локальная генерация объемных VR-миров прямо внутри Unity в реальном времени.
Интересный проект от подписчика Олега (@heilagr_s)
Для получения честного 6DOF (с возможностью наклоняться и заглядывать за объекты) реализован пайплайн генерации глубины и инпейнтинга окклюзий на лету.
Как это работает:
1. Генерация (Text-to-Image):
– Используется stable-diffusion.cpp через C# биндинги прямо в движке.
– Включен Circular Padding на уровне инференса. Это дает идеальный бесшовный стык краев без пост-процессинга.
– Модель: Z-Image-Turbo + 360° LoRA.
2. Карта глубины:
– Генерируется через Depth Anything V2 с помощью Unity Sentis.
3. Волюметрика и слои:
– Сцена нарезается на 5 слоев на основе гистограммы глубины. Это создает эффект 2.5D, но при разделении слоев за передними объектами образуются пустоты.
4. Инпейнтинг:
– Пустоты на задних планах заполняются через LaMa (также с помощью Unity Sentis). Инпейнтится и цвет, и глубина.
5. Рендеринг:
– Кастомный Raymarching шейдер. Каждый слой имеет свою карту глубины.
Такой подход дает корректный параллакс без резиновых растяжений текстур, свойственных обычному дисплейсменту.
https://www.reddit.com/r/StableDiffusion/comments/1qde674/
@cgevent
Интересный проект от подписчика Олега (@heilagr_s)
Для получения честного 6DOF (с возможностью наклоняться и заглядывать за объекты) реализован пайплайн генерации глубины и инпейнтинга окклюзий на лету.
Как это работает:
1. Генерация (Text-to-Image):
– Используется stable-diffusion.cpp через C# биндинги прямо в движке.
– Включен Circular Padding на уровне инференса. Это дает идеальный бесшовный стык краев без пост-процессинга.
– Модель: Z-Image-Turbo + 360° LoRA.
2. Карта глубины:
– Генерируется через Depth Anything V2 с помощью Unity Sentis.
3. Волюметрика и слои:
– Сцена нарезается на 5 слоев на основе гистограммы глубины. Это создает эффект 2.5D, но при разделении слоев за передними объектами образуются пустоты.
4. Инпейнтинг:
– Пустоты на задних планах заполняются через LaMa (также с помощью Unity Sentis). Инпейнтится и цвет, и глубина.
5. Рендеринг:
– Кастомный Raymarching шейдер. Каждый слой имеет свою карту глубины.
Такой подход дает корректный параллакс без резиновых растяжений текстур, свойственных обычному дисплейсменту.
https://www.reddit.com/r/StableDiffusion/comments/1qde674/
@cgevent
👍13❤4
Media is too big
VIEW IN TELEGRAM
Что там у роботов?
Состязаются в езде на лыжах, санках, еще чем-то
Похоже на биатлон. Стопэ, а почему не показывают стрельбища? Какие у них мишени в стрельбищах, я спрашиваю!🤩
#Robot
Состязаются в езде на лыжах, санках, еще чем-то
Похоже на биатлон. Стопэ, а почему не показывают стрельбища? Какие у них мишени в стрельбищах, я спрашиваю!
#Robot
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16👍5😱1
FLUX.2 [klein]: Towards Interactive Visual Intelligence
BFL выпустили пачку легких скоростных версий FLUX.2
По разрешению - до 4К.
По функционалу - есть редактрование, мультиреференс
По количеству параметров два типа: 4B и 9B, для каждого из них есть версии Base и Distilled:
Base - медленная, много шагов, но пригодная для дообучения.
Distilled - быстрая, 4 шага
4B влезает в ~13GB VRAM
HF
Демо BFL
Демо HF 9B
Демо HF 4B
#text2image #imageediting #referencing
BFL выпустили пачку легких скоростных версий FLUX.2
По разрешению - до 4К.
По функционалу - есть редактрование, мультиреференс
По количеству параметров два типа: 4B и 9B, для каждого из них есть версии Base и Distilled:
Base - медленная, много шагов, но пригодная для дообучения.
Distilled - быстрая, 4 шага
4B влезает в ~13GB VRAM
HF
Демо BFL
Демо HF 9B
Демо HF 4B
#text2image #imageediting #referencing
🔥12👍7🥴1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
Samsung Internet
Самсунг выпустил бета версию своего браузера с ИИ-функциями пересказа и перевода страниц
"доступен в Южной Корее и США"
#news #browser
Самсунг выпустил бета версию своего браузера с ИИ-функциями пересказа и перевода страниц
"доступен в Южной Корее и США"
#news #browser
👍4👎1
Нейронавт | Нейросети в творчестве
FLUX.2 [klein]: Towards Interactive Visual Intelligence BFL выпустили пачку легких скоростных версий FLUX.2 По разрешению - до 4К. По функционалу - есть редактрование, мультиреференс По количеству параметров два типа: 4B и 9B, для каждого из них есть версии…
ггуф приехал
https://huggingface.co/unsloth/FLUX.2-klein-9B-GGUF/tree/main
Спасибо @lexxxx999
#flux2 #gguf
https://huggingface.co/unsloth/FLUX.2-klein-9B-GGUF/tree/main
Спасибо @lexxxx999
#flux2 #gguf
huggingface.co
unsloth/FLUX.2-klein-9B-GGUF at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍8🔥1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Sparrow-1
Tavus выпустил новую диалоговую рилтаймовую аудио-видео модель (Sparrow-0 тут)
Она создана для работы с видео, где важно, чтобы разговор выглядел естественно
— понимает, кто сейчас «владеет» разговором
— использует потоковое аудио и учитывает контекст, чтобы не было задержек
— обучается под каждого говорящего, подстраиваясь под его темп речи
— учитывает такие вещи, как «э-э», «м-м», незавершённые фразы и явные перебивания
— реагирует мгновенно, когда намерение говорящего понятно, и ждёт, если есть неопределённость
— показала 100% точность и полноту в тестах, не допускает перебиваний, а среднее время отклика составляет 55 мс
— уже доступна в продуктах Tavus, включая API и платформу Tavus
#assistant #voicemode #talkinghead #realtime
Tavus выпустил новую диалоговую рилтаймовую аудио-видео модель (Sparrow-0 тут)
Она создана для работы с видео, где важно, чтобы разговор выглядел естественно
— понимает, кто сейчас «владеет» разговором
— использует потоковое аудио и учитывает контекст, чтобы не было задержек
— обучается под каждого говорящего, подстраиваясь под его темп речи
— учитывает такие вещи, как «э-э», «м-м», незавершённые фразы и явные перебивания
— реагирует мгновенно, когда намерение говорящего понятно, и ждёт, если есть неопределённость
— показала 100% точность и полноту в тестах, не допускает перебиваний, а среднее время отклика составляет 55 мс
— уже доступна в продуктах Tavus, включая API и платформу Tavus
#assistant #voicemode #talkinghead #realtime
👍11❤1
Media is too big
VIEW IN TELEGRAM
ShapeR
Реконструкция 3D сцен от Meta (запрещено в РФ) по набору изображений.
Воссоздает отдельные объекты, а не всю сцену одним куском
Гитхаб
HF
#scenereconstruction #image2scene #imageto3d #3d
Реконструкция 3D сцен от Meta (запрещено в РФ) по набору изображений.
Воссоздает отдельные объекты, а не всю сцену одним куском
Гитхаб
HF
#scenereconstruction #image2scene #imageto3d #3d
👍9🔥5
Step3-VL-10B: Compact Yet Frontier Multimodal Intelligence
Лёгкая мультимодальная модель от Степана с 10B параметров, уровня Gemini 2.5 Pro и Qwen3-VL-235B. Умеет работать с визуальной информацией, решать сложные задачи и подстраиваться под нужды человека
В качестве декодера Qwen3-8B
Гитхаб
HF
MS
#mllm #vlm #assistant
Лёгкая мультимодальная модель от Степана с 10B параметров, уровня Gemini 2.5 Pro и Qwen3-VL-235B. Умеет работать с визуальной информацией, решать сложные задачи и подстраиваться под нужды человека
В качестве декодера Qwen3-8B
Гитхаб
HF
MS
#mllm #vlm #assistant
👍12😁3🔥1
FlowAct-R1: Towards Interactive Humanoid Video Generation
Генератор реалистичного персонажного видео для взаимодействия в рилтайме от ByteDance
— видео любой длительности
— выдаёт видео в режиме реального времени с частотой 25 кадров в секунду и разрешением 480p
— время до отображения первого кадра — около 1,5 секунды
— создаёт естественные переходы между разными состояниями взаимодействия
— работает с разными стилями персонажей и движений
— хорошо синхронизирует движения и речь
Кода/весов нет
#talkinghead #characteranimation #realtime #research
Генератор реалистичного персонажного видео для взаимодействия в рилтайме от ByteDance
— видео любой длительности
— выдаёт видео в режиме реального времени с частотой 25 кадров в секунду и разрешением 480p
— время до отображения первого кадра — около 1,5 секунды
— создаёт естественные переходы между разными состояниями взаимодействия
— работает с разными стилями персонажей и движений
— хорошо синхронизирует движения и речь
Кода/весов нет
#talkinghead #characteranimation #realtime #research
👍8👀3❤2👎1🔥1