Media is too big
VIEW IN TELEGRAM
V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
Комплексный редактор видео от Adobe на базе WAN2.1
Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.
Можно отредактировать один кадр и применить эти изменения ко всему видео.
Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены
Код ждем
#videoediting #relighting #compositing #videoinpainting
Комплексный редактор видео от Adobe на базе WAN2.1
Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.
Можно отредактировать один кадр и применить эти изменения ко всему видео.
Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены
Код ждем
#videoediting #relighting #compositing #videoinpainting
🔥8👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen Code v0.5.0
Обновлен инструмент для кодинга
— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость
— нативный TypeScript SDK для лёгкой интеграции с Node/TS
— автоматически сохраняет сессии и продолжает разговоры
— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2
— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK
— имеет поддержку русского языка благодаря добавлению интернационализации
— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии
— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.
установка в терминале
Гитхаб
#coding #assistant
Обновлен инструмент для кодинга
— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость
— нативный TypeScript SDK для лёгкой интеграции с Node/TS
— автоматически сохраняет сессии и продолжает разговоры
— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2
— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK
— имеет поддержку русского языка благодаря добавлению интернационализации
— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии
— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.
установка в терминале
npm install -g @qwen-code/qwen-code
Гитхаб
#coding #assistant
👍10🔥3
TurboDiffusion
Ускорение диффузной видеогенерации в 100 раз
Заменили стандартный механизм внимания на микс из SageAttention2++ и Sparse-Linear Attention
Плюс, дистиллировали до 4 шагов.
На такой архитектуре сделали 3 модельки WAN 2.1 T2V и одну WAN 2.2 I2V
И пишут что это еще нефинальные
Теперь заживем
Гитхаб
HF
#text2video #image2video #optimization
Ускорение диффузной видеогенерации в 100 раз
Заменили стандартный механизм внимания на микс из SageAttention2++ и Sparse-Linear Attention
Плюс, дистиллировали до 4 шагов.
На такой архитектуре сделали 3 модельки WAN 2.1 T2V и одну WAN 2.2 I2V
И пишут что это еще нефинальные
Теперь заживем
Гитхаб
HF
#text2video #image2video #optimization
🤯11👍4🔥4😱3🍾3
ComfyUI обновил менеджер и прикрутил упрощенный интерфейс для скрытия структуры, лапши и вот этого всего
ComfyUI-Manager:
— может показывать подробную информацию о нодах до их установки, включая предварительный просмотр каждого узла в пакете
— устанавливает все недостающие узлы сразу, без необходимости делать это по одному
— обнаруживает конфликты зависимостей между пользовательскими узлами и показывает их с помощью визуальных индикаторов
— сканирует узлы и блокирует вредоносные, предупреждает пользователей о возможных угрозах
— ищет пользовательские узлы по названию пакета или имени отдельного узла
— поддерживает полную локализацию интерфейса
#comfyUI #news
ComfyUI-Manager:
— может показывать подробную информацию о нодах до их установки, включая предварительный просмотр каждого узла в пакете
— устанавливает все недостающие узлы сразу, без необходимости делать это по одному
— обнаруживает конфликты зависимостей между пользовательскими узлами и показывает их с помощью визуальных индикаторов
— сканирует узлы и блокирует вредоносные, предупреждает пользователей о возможных угрозах
— ищет пользовательские узлы по названию пакета или имени отдельного узла
— поддерживает полную локализацию интерфейса
#comfyUI #news
❤18🔥4😁1😈1
This media is not supported in your browser
VIEW IN TELEGRAM
StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space
Моделька превращает обычные изображения в стерео не используя явные данные о глубине
Гитхаб
Демо
#image2stereo #novelview #stereo
Моделька превращает обычные изображения в стерео не используя явные данные о глубине
Гитхаб
Демо
#image2stereo #novelview #stereo
👍8😱1
Media is too big
VIEW IN TELEGRAM
Steer3D: Feedforward 3D Editing via Text-Steerable Image-to-3D
3D контролнет, с которым 3d-генерилки становятся 3d-редакторами
Гитхаб
HF
#3dediting #controlnet
3D контролнет, с которым 3d-генерилки становятся 3d-редакторами
Гитхаб
HF
#3dediting #controlnet
🔥5👍2
Mistral OCR 3
Новая версия распознавалкитекcтов документов от Mistral
Русский поддерживает
С недавно вышедшей HunyuanOCR почему-то себя не сравнивают
Playground
AI studio
#ocr #image2text #image2doc
Новая версия распознавалки
Русский поддерживает
С недавно вышедшей HunyuanOCR почему-то себя не сравнивают
Playground
AI studio
#ocr #image2text #image2doc
👍8🤔1
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation (DAP)
Модель для оценки глубины панорамных изображений.
За извлечение признаков отвечает DINOv3-Large
Гитхаб
Демо
#panorama2depth #image2depth
Модель для оценки глубины панорамных изображений.
За извлечение признаков отвечает DINOv3-Large
Гитхаб
Демо
#panorama2depth #image2depth
🔥8
SVG-T2I: Scaling up text-to-image latent diffusion model without variational autoencoder
Опенсорсная генерация картинок по тексту без VAE от Kling. Вместо этого используют Visual Foundation Model (VFM), что дает универсальность, преимущество на высоком разрешении, сохранение семантической структуры, одновременную работу с текстом и изображением.
Гитхаб
HF
#text2image #optimization
Опенсорсная генерация картинок по тексту без VAE от Kling. Вместо этого используют Visual Foundation Model (VFM), что дает универсальность, преимущество на высоком разрешении, сохранение семантической структуры, одновременную работу с текстом и изображением.
Гитхаб
HF
#text2image #optimization
🔥7😁4
PersonaLive! : Expressive Portrait Image Animation for Live Streaming
Потоковый рилтаймовый аватар - оживлятор портретов от Dzine.ai
Под капотом #SD15 зато всего 12ГБ VRAM кушает и не ограничен хронометражом
Гитхаб
HF
#avatar #humanavatar #portraitaniimation
Потоковый рилтаймовый аватар - оживлятор портретов от Dzine.ai
Под капотом #SD15 зато всего 12ГБ VRAM кушает и не ограничен хронометражом
Гитхаб
HF
#avatar #humanavatar #portraitaniimation
👍12