Media is too big
VIEW IN TELEGRAM
V-DPM: 4D Video Reconstruction with Dynamic Point Maps
4D-реконструкция динамических сцен по видео с помощью динамических точечных карт (DPM)
Гитхаб
Демо
#videoto4d #4d #scenereconstruction
4D-реконструкция динамических сцен по видео с помощью динамических точечных карт (DPM)
Гитхаб
Демо
#videoto4d #4d #scenereconstruction
👍4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
HeartMuLa: A Family of Open Sourced Music Foundation Models
Набор открытых моделей для создания и понимания музыки
Создаёт песни по запросу, учитывая разные условия: можно описать стиль, дать текст или показать образец музыки
Позволяет детально управлять музыкальными атрибутами — например, задавать стиль разных частей песни (вступления, куплета, припева) с помощью текстовых подсказок
Гитхаб
HF
#alm #music #text2music
Набор открытых моделей для создания и понимания музыки
Создаёт песни по запросу, учитывая разные условия: можно описать стиль, дать текст или показать образец музыки
Позволяет детально управлять музыкальными атрибутами — например, задавать стиль разных частей песни (вступления, куплета, припева) с помощью текстовых подсказок
Гитхаб
HF
#alm #music #text2music
🔥11❤2👍1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
TMD: Transition Matching Distillation
Ускорятор видеогенераторов
Разбивает базовую модель на две части: основную (берёт на себя большую часть работы по извлечению смысла) и «головку потока» (дорабатывает изображение с помощью нескольких быстрых шагов).
Работает быстрее аналогов, при этом качество видео почти не страдает.
На сайте примеры ускоренного Wan2.1 1.3B и 14B
Код ждем
#optimization #text2video #image2video
Ускорятор видеогенераторов
Разбивает базовую модель на две части: основную (берёт на себя большую часть работы по извлечению смысла) и «головку потока» (дорабатывает изображение с помощью нескольких быстрых шагов).
Работает быстрее аналогов, при этом качество видео почти не страдает.
На сайте примеры ускоренного Wan2.1 1.3B и 14B
Код ждем
#optimization #text2video #image2video
👍12
VIBE: Visual Instruction Based Editor
Генератор-редактор картинок, впихуемый в 24 ГБ VRAM из коробки
Генерирует 2K за 4 секунды на NVIDIA H100
Применяют Qwen3-VL для управления процессом редактирования и Sana1.5 для генерации
Судя по фамилиям, авторы собрались с русскоязычного пространства, что одновременно радует и настораживает
Гитхаб
HF
Демо
#imageediting
Генератор-редактор картинок, впихуемый в 24 ГБ VRAM из коробки
Генерирует 2K за 4 секунды на NVIDIA H100
Применяют Qwen3-VL для управления процессом редактирования и Sana1.5 для генерации
Судя по фамилиям, авторы собрались с русскоязычного пространства, что одновременно радует и настораживает
Гитхаб
HF
Демо
#imageediting
❤8👍6😁5👀1
VIBE Local GUI (Windows)
Графический интерфейс на Gradio для локального запуска VIBE
Спасибо @p0lygon
#GUI #imageediting #windows
Графический интерфейс на Gradio для локального запуска VIBE
Спасибо @p0lygon
#GUI #imageediting #windows
👍6❤4
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA PersonaPlex: Natural Conversational AI With Any Role and Voice
Диалоговая разговорная аудиомодель с полным дуплексом
— может вести диалог, слушая и говоря одновременно
— создаёт естественные паузы, перебивает, использует междометия вроде «ага» или «оу», чтобы показать, что слушает
— подстраивается под заданную роль через текстовый промпт — может быть учителем, сотрудником банка, астронавтом и кем угодно
А построили ее... на базе Moshi Неужели у Нвидиа кончились свои идеи? Видать, потому опенсорс
Гитхаб
HF
Спасибо @m_franz
#voicemode #dialog
Диалоговая разговорная аудиомодель с полным дуплексом
— может вести диалог, слушая и говоря одновременно
— создаёт естественные паузы, перебивает, использует междометия вроде «ага» или «оу», чтобы показать, что слушает
— подстраивается под заданную роль через текстовый промпт — может быть учителем, сотрудником банка, астронавтом и кем угодно
А построили ее... на базе Moshi Неужели у Нвидиа кончились свои идеи? Видать, потому опенсорс
Гитхаб
HF
Спасибо @m_franz
#voicemode #dialog
👍9🔥3❤1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
FrankenMotion: Part-level Human Motion Generation and Composition
Модель для генерации и комбинирования движений человека на уровне отдельных частей тела. Учитывает текстовые подсказки для каждой части тела отдельно, благодаря чему движения получаются более точными и контролируемыми
Гитхаб код ждем
#humananimation #animation
Модель для генерации и комбинирования движений человека на уровне отдельных частей тела. Учитывает текстовые подсказки для каждой части тела отдельно, благодаря чему движения получаются более точными и контролируемыми
Гитхаб код ждем
#humananimation #animation
🔥7👍1
Media is too big
VIEW IN TELEGRAM
Зацените дебютный клип ИИ-исполнительницы WU AI-HUA
Хороший продукт
Оригинал где-то тут, но Warner Music China блочит за пределами Китая
Хороший продукт
Оригинал где-то тут, но Warner Music China блочит за пределами Китая
🔥27👎5👍2😁2
Media is too big
VIEW IN TELEGRAM
ObjSplat: Geometry-Aware Gaussian Surfels for Active Object Reconstruction
Система реконструкции объектов на гауссовых поверхностях. Создаёт детальные модели, которые можно использовать в физических симуляциях.
— самостоятельно выбирает точки обзора для сканирования
— постепенно создаёт модель объекта с реалистичной текстурой и точной геометрией
— определяет плохо отсканированные участки даже на сложных объектах
Код ждем
#scenereconstruction #imageto3d #gaussian #image2scene
Система реконструкции объектов на гауссовых поверхностях. Создаёт детальные модели, которые можно использовать в физических симуляциях.
— самостоятельно выбирает точки обзора для сканирования
— постепенно создаёт модель объекта с реалистичной текстурой и точной геометрией
— определяет плохо отсканированные участки даже на сложных объектах
Код ждем
#scenereconstruction #imageto3d #gaussian #image2scene
🔥5❤1🤝1
GLM-4.7 Flash
Облегченная версия GLM-4.7 на 30B параметров, с контекстным окном в 128К на архитектуре MoE.
Баланс между производительностью и эффективностью
Подходит для кода, креативного письма, перевода, задач с длинным контекстом и ролевых моделей
GLM-4.7-Flash: бесплатно (1 одновременный запрос)
GLM-4.7-FlashX: высокоскоростной и доступный по цене вариант
HF
Кванты
Демо
Демо 2
API
#assistant #coding
Облегченная версия GLM-4.7 на 30B параметров, с контекстным окном в 128К на архитектуре MoE.
Баланс между производительностью и эффективностью
Подходит для кода, креативного письма, перевода, задач с длинным контекстом и ролевых моделей
GLM-4.7-Flash: бесплатно (1 одновременный запрос)
GLM-4.7-FlashX: высокоскоростной и доступный по цене вариант
HF
Кванты
Демо
Демо 2
API
#assistant #coding
👍14❤1🔥1