This media is not supported in your browser
VIEW IN TELEGRAM
ACE Studio 2.0
ИИ-студия для создания музыки с кучей разных инструментов, ориентированная на вокал. Умеет:
— генерировать вокалы по MIDI и текстам с более чем 140 голосами и 8 языками
— создавать реалистичные исполнения на инструментах без необходимости загружать большие библиотеки сэмплов
— менять голос, превращая его в голоса разных персонажей или имитируя звуки инструментов
— клонировать свой голос для вокальных партий
— разбивать треки на стемы (вокал, ударные, бас, инструменты)
— преобразовывать PDF-ноты в MusicXML
— генерировать музыку и звуковые эффекты, которые идеально подходят к видео
— делать лупы по текстовому описанию
— интегрируется с DAW через плагин ACE Bridge
Есть два тарифа по $17 и $22 в год
#musicrditing #vocalediting #midi #music2stem #vst
ИИ-студия для создания музыки с кучей разных инструментов, ориентированная на вокал. Умеет:
— генерировать вокалы по MIDI и текстам с более чем 140 голосами и 8 языками
— создавать реалистичные исполнения на инструментах без необходимости загружать большие библиотеки сэмплов
— менять голос, превращая его в голоса разных персонажей или имитируя звуки инструментов
— клонировать свой голос для вокальных партий
— разбивать треки на стемы (вокал, ударные, бас, инструменты)
— преобразовывать PDF-ноты в MusicXML
— генерировать музыку и звуковые эффекты, которые идеально подходят к видео
— делать лупы по текстовому описанию
— интегрируется с DAW через плагин ACE Bridge
Есть два тарифа по $17 и $22 в год
#musicrditing #vocalediting #midi #music2stem #vst
❤5👍2
Media is too big
VIEW IN TELEGRAM
MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives
Очередное решение для генерации длинных видео от Kling Team с сохранением сюжетной связности
совместим с разными видеогенераторами. Прикручен к Wan2.1-T2V-1.3B
Гитхаб
HF
#longvideo #wan
Очередное решение для генерации длинных видео от Kling Team с сохранением сюжетной связности
совместим с разными видеогенераторами. Прикручен к Wan2.1-T2V-1.3B
Гитхаб
HF
#longvideo #wan
👍5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Помню, монтировал съемку на выезде летом на ноуте
Время поджимает, а ноут помирает от жары
Поставил его под кондиционер, пустил ледяной воздух - и работа пошла.
Настали новые времена, зима больше не может быть оправданием холодного железа.
Владельцы ноутов, как вы там? показывайте свои холодильники в коментах
Время поджимает, а ноут помирает от жары
Поставил его под кондиционер, пустил ледяной воздух - и работа пошла.
Настали новые времена, зима больше не может быть оправданием холодного железа.
Владельцы ноутов, как вы там? показывайте свои холодильники в коментах
😁17👍3❤1
Media is too big
VIEW IN TELEGRAM
AniX: Animate Any Character in Any World
Анимация персонажей в 3D мирах текстовыми указаниями от Microsoft и Co
Мир подаем в виде сцены на гауссианах, персонажа - в виде 3d модели или мультиракурс картинок
В базе видеогенератор, так что это не 3D анимация меша. Зато взаимодействие с миром и объектами предусмотрено.
Код ждем
#characteranimation #world #gaussian
Анимация персонажей в 3D мирах текстовыми указаниями от Microsoft и Co
Мир подаем в виде сцены на гауссианах, персонажа - в виде 3d модели или мультиракурс картинок
В базе видеогенератор, так что это не 3D анимация меша. Зато взаимодействие с миром и объектами предусмотрено.
Код ждем
#characteranimation #world #gaussian
❤5🤔1
Гугл опубликовал код и веса эгоцентричного видеогенератора EgoX
Гитхаб
Веса
#video2pov #pov #video2video #cameracontrol #lora
Гитхаб
Веса
#video2pov #pov #video2video #cameracontrol #lora
Telegram
Нейронавт | Нейросети в творчестве
EgoX: Egocentric Video Generation from a Single Exocentric Video
Еще одна работа на субъективный вид от первого лица (POV), от KAIST
Превращает видео с видом со стороны в видео от лица одного из персонажей
Лора на базе Wan 2.1 14B i2v
Код ждем
#video2pov…
Еще одна работа на субъективный вид от первого лица (POV), от KAIST
Превращает видео с видом со стороны в видео от лица одного из персонажей
Лора на базе Wan 2.1 14B i2v
Код ждем
#video2pov…
👍10🔥6
3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework
Реконструкция интерьеров по одному фото в полноценную редактируемую 3D-сцену с отдельными объектами
— создаёт текстурированные 3D-модели из 2D-изображений
— выравнивает объекты относительно пола с помощью оптимизации с четырьмя степенями свободы (4-DoF), из-за чего они не висят в воздухе и не проваливаются сквозь пол
— воссоздаёт фон, который гармонично сочетается с объектами
— в отличие от SAM3D, который не создаёт геометрию фона и допускает пересечения объектов, 3D-GEN реконструирует и объекты, и фон, делая сцены пригодными для VFX и игр
Под капотом:
— GroundedSAM для сегментации объектов
— Google Image Flash (NanoBanana) для аутпейнтинга
— Hunyuan3D 2.0 для создания 3D ассетов
— VGGT для оценки параметров камеры и создания облака точек.
Код ждем в конце января
#image2scene #imageto3d
Реконструкция интерьеров по одному фото в полноценную редактируемую 3D-сцену с отдельными объектами
— создаёт текстурированные 3D-модели из 2D-изображений
— выравнивает объекты относительно пола с помощью оптимизации с четырьмя степенями свободы (4-DoF), из-за чего они не висят в воздухе и не проваливаются сквозь пол
— воссоздаёт фон, который гармонично сочетается с объектами
— в отличие от SAM3D, который не создаёт геометрию фона и допускает пересечения объектов, 3D-GEN реконструирует и объекты, и фон, делая сцены пригодными для VFX и игр
Под капотом:
— GroundedSAM для сегментации объектов
— Google Image Flash (NanoBanana) для аутпейнтинга
— Hunyuan3D 2.0 для создания 3D ассетов
— VGGT для оценки параметров камеры и создания облака точек.
Код ждем в конце января
#image2scene #imageto3d
👍10❤1
GLM-4.7: Advancing the Coding Capability
Новая версия GLM с фокусом на кодинге
Справляется с созданием морд сайтов, постеров, слайдов и т д
— лучше справляется с мультилингвальным кодированием и задачами в терминале, например, на SWE-bench показывает 73,8 % (это на 5,8 % больше, чем у предыдущей версии)
— делает веб-страницы более современными и чистыми, а слайды — с точным макетом и размерами
— ловчее пользуется инструментами, что видно на тестах τ^2-Bench и BrowseComp
— сильнее в математике и логическом мышлении — на HLE набрала 42,8 %, что на 12,4 % больше, чем у GLM-4.6
— прокачалась в чатах, креативном письме и ролевых сценариях
— может думать перед каждым ответом, сохранять мысли между разговорами и управлять мышлением по ходам — это помогает в сложных задачах и экономит время в просты
HF
Гитхаб
Z-Chat
#assistant #coding #agent #multimodal #mllm
Новая версия GLM с фокусом на кодинге
Справляется с созданием морд сайтов, постеров, слайдов и т д
— лучше справляется с мультилингвальным кодированием и задачами в терминале, например, на SWE-bench показывает 73,8 % (это на 5,8 % больше, чем у предыдущей версии)
— делает веб-страницы более современными и чистыми, а слайды — с точным макетом и размерами
— ловчее пользуется инструментами, что видно на тестах τ^2-Bench и BrowseComp
— сильнее в математике и логическом мышлении — на HLE набрала 42,8 %, что на 12,4 % больше, чем у GLM-4.6
— прокачалась в чатах, креативном письме и ролевых сценариях
— может думать перед каждым ответом, сохранять мысли между разговорами и управлять мышлением по ходам — это помогает в сложных задачах и экономит время в просты
HF
Гитхаб
Z-Chat
#assistant #coding #agent #multimodal #mllm
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Stand-In WAN 2.2
Наконец сделали версию видеоперсонализатора Stand-In на #WAN22
Гитхаб
Kijai HF
воркфлоу
#workflow #comfyUI #personalization #referencing #faceswap #stylize
Наконец сделали версию видеоперсонализатора Stand-In на #WAN22
Гитхаб
Kijai HF
воркфлоу
#workflow #comfyUI #personalization #referencing #faceswap #stylize
👍11🔥6❤1
Media is too big
VIEW IN TELEGRAM
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text
Видеоген которому можно задавать события референсными картинками, траекториями, текстом.
На базе Wan 2.2 14B T2V / SAM
Гитхаб
HF ~114 ГБ
#motioncontrol #referencing #text2video #image2video #wan22
Видеоген которому можно задавать события референсными картинками, траекториями, текстом.
На базе Wan 2.2 14B T2V / SAM
Гитхаб
HF ~114 ГБ
#motioncontrol #referencing #text2video #image2video #wan22
👍9🤯4😱1
4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation
Разработка Nvidia с бенчмарком
Пониматор видео в 4D (с учетом времени)
— 4D-RGPT умеет улавливать 4D особенности видео, включая глубину и движение во времени
— Отличается от других моделей тем, что лучше справляется с задачами, где нужно понимать динамику и пространственные отношения в видео
— Может отвечать на сложные вопросы о том, что происходит в разных частях видео, учитывая глубину и изменения во времени
Код ждем
#vlm #video2text
Разработка Nvidia с бенчмарком
Пониматор видео в 4D (с учетом времени)
— 4D-RGPT умеет улавливать 4D особенности видео, включая глубину и движение во времени
— Отличается от других моделей тем, что лучше справляется с задачами, где нужно понимать динамику и пространственные отношения в видео
— Может отвечать на сложные вопросы о том, что происходит в разных частях видео, учитывая глубину и изменения во времени
Код ждем
#vlm #video2text
🔥3👍2
ComfyUI Cloud теперь берёт плату за все облачные воркфлоу, включая те, что раньше были бесплатными
Любые облачные воркфлоу (включая WAN 2.2) расходуют кредиты
Кредиты уходят даже при использовании открытых моделей
Когда кредиты заканчиваются, облачные воркфлоу перестают работать
Реддит
Любые облачные воркфлоу (включая WAN 2.2) расходуют кредиты
Кредиты уходят даже при использовании открытых моделей
Когда кредиты заканчиваются, облачные воркфлоу перестают работать
Реддит
Reddit
From the comfyui community on Reddit: Comfyui Cloud Now Charges Credits For All Cloud Workflows (Including Previously “Free” Templates)
Posted by ARandomTopHat - 50 votes and 36 comments
👍7👎4👀2😈1
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion
Генерация длинных видео из одного изображения с учетом движения камеры и геометрической согласованностью, на базе Wan2.1-T2V-1.3B
Модель динамически обновляет 3D-кэш на каждом шаге, для сохранения согласованности фрагментов видео, за это, как я понял, отвечают гауссианы
Да, опять WAN. Мне нравится 🤓
Ну плывет конечно и похоже это не изза сжатия видео
Гитхаб
HF
#image2video #gaussian #longvideo
Генерация длинных видео из одного изображения с учетом движения камеры и геометрической согласованностью, на базе Wan2.1-T2V-1.3B
Модель динамически обновляет 3D-кэш на каждом шаге, для сохранения согласованности фрагментов видео, за это, как я понял, отвечают гауссианы
Да, опять WAN. Мне нравится 🤓
Ну плывет конечно и похоже это не изза сжатия видео
Гитхаб
HF
#image2video #gaussian #longvideo
👍5🔥5