Нейронавт | Нейросети в творчестве
11.1K subscribers
4.75K photos
4.11K videos
41 files
5.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
ACE Studio 2.0

ИИ-студия для создания музыки с кучей разных инструментов, ориентированная на вокал. Умеет:

— генерировать вокалы по MIDI и текстам с более чем 140 голосами и 8 языками

— создавать реалистичные исполнения на инструментах без необходимости загружать большие библиотеки сэмплов

— менять голос, превращая его в голоса разных персонажей или имитируя звуки инструментов

— клонировать свой голос для вокальных партий

— разбивать треки на стемы (вокал, ударные, бас, инструменты)

— преобразовывать PDF-ноты в MusicXML

— генерировать музыку и звуковые эффекты, которые идеально подходят к видео

— делать лупы по текстовому описанию

— интегрируется с DAW через плагин ACE Bridge

Есть два тарифа по $17 и $22 в год

#musicrditing #vocalediting #midi #music2stem #vst
5👍2
Media is too big
VIEW IN TELEGRAM
MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives

Очередное решение для генерации длинных видео от Kling Team с сохранением сюжетной связности

совместим с разными видеогенераторами. Прикручен к Wan2.1-T2V-1.3B

Гитхаб
HF

#longvideo #wan
👍5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Помню, монтировал съемку на выезде летом на ноуте
Время поджимает, а ноут помирает от жары
Поставил его под кондиционер, пустил ледяной воздух - и работа пошла.

Настали новые времена, зима больше не может быть оправданием холодного железа.

Владельцы ноутов, как вы там? показывайте свои холодильники в коментах
😁17👍31
This media is not supported in your browser
VIEW IN TELEGRAM
Если бы все подписчики скинулись админу по 100 Мб RAM

#humor
1😁21🔥7
Media is too big
VIEW IN TELEGRAM
AniX: Animate Any Character in Any World

Анимация персонажей в 3D мирах текстовыми указаниями от Microsoft и Co

Мир подаем в виде сцены на гауссианах, персонажа - в виде 3d модели или мультиракурс картинок

В базе видеогенератор, так что это не 3D анимация меша. Зато взаимодействие с миром и объектами предусмотрено.

Код ждем

#characteranimation #world #gaussian
5🤔1
3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework

Реконструкция интерьеров по одному фото в полноценную редактируемую 3D-сцену с отдельными объектами

— создаёт текстурированные 3D-модели из 2D-изображений

— выравнивает объекты относительно пола с помощью оптимизации с четырьмя степенями свободы (4-DoF), из-за чего они не висят в воздухе и не проваливаются сквозь пол

— воссоздаёт фон, который гармонично сочетается с объектами

— в отличие от SAM3D, который не создаёт геометрию фона и допускает пересечения объектов, 3D-GEN реконструирует и объекты, и фон, делая сцены пригодными для VFX и игр

Под капотом:
— GroundedSAM для сегментации объектов
— Google Image Flash (NanoBanana) для аутпейнтинга
— Hunyuan3D 2.0 для создания 3D ассетов
— VGGT для оценки параметров камеры и создания облака точек.

Код ждем в конце января

#image2scene #imageto3d
👍101
GLM-4.7: Advancing the Coding Capability

Новая версия GLM с фокусом на кодинге

Справляется с созданием морд сайтов, постеров, слайдов и т д

— лучше справляется с мультилингвальным кодированием и задачами в терминале, например, на SWE-bench показывает 73,8 % (это на 5,8 % больше, чем у предыдущей версии)

— делает веб-страницы более современными и чистыми, а слайды — с точным макетом и размерами

— ловчее пользуется инструментами, что видно на тестах τ^2-Bench и BrowseComp

— сильнее в математике и логическом мышлении — на HLE набрала 42,8 %, что на 12,4 % больше, чем у GLM-4.6

— прокачалась в чатах, креативном письме и ролевых сценариях

— может думать перед каждым ответом, сохранять мысли между разговорами и управлять мышлением по ходам — это помогает в сложных задачах и экономит время в просты

HF
Гитхаб
Z-Chat

#assistant #coding #agent #multimodal #mllm
👍7
Media is too big
VIEW IN TELEGRAM
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Видеоген которому можно задавать события референсными картинками, траекториями, текстом.
На базе Wan 2.2 14B T2V / SAM

Гитхаб
HF ~114 ГБ

#motioncontrol #referencing #text2video #image2video #wan22
👍9🤯4😱1
4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Разработка Nvidia с бенчмарком
Пониматор видео в 4D (с учетом времени)

— 4D-RGPT умеет улавливать 4D особенности видео, включая глубину и движение во времени

— Отличается от других моделей тем, что лучше справляется с задачами, где нужно понимать динамику и пространственные отношения в видео

— Может отвечать на сложные вопросы о том, что происходит в разных частях видео, учитывая глубину и изменения во времени

Код ждем

#vlm #video2text
🔥3👍2
ComfyUI Cloud теперь берёт плату за все облачные воркфлоу, включая те, что раньше были бесплатными

Любые облачные воркфлоу (включая WAN 2.2) расходуют кредиты

Кредиты уходят даже при использовании открытых моделей

Когда кредиты заканчиваются, облачные воркфлоу перестают работать

Реддит
👍7👎4👀2😈1
Режем по больному

#humor
😭19👍2😁1
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

Генерация длинных видео из одного изображения с учетом движения камеры и геометрической согласованностью, на базе Wan2.1-T2V-1.3B

Модель динамически обновляет 3D-кэш на каждом шаге, для сохранения согласованности фрагментов видео, за это, как я понял, отвечают гауссианы

Да, опять WAN. Мне нравится 🤓

Ну плывет конечно и похоже это не изза сжатия видео

Гитхаб
HF

#image2video #gaussian #longvideo
👍5🔥5