Нейронавт | Нейросети в творчестве
11.1K subscribers
4.75K photos
4.11K videos
41 files
5.13K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
Qwen-Image-Layered

Редактор картинок от Qwen на базе #qwenimage
Hаскладывает изображения на несколько RGBA-слоёв. Это позволяет редактировать каждый слой отдельно, не трогая остальные части картинки

Может менять размер объектов без искажений

Может рекурсивно раскладывать слои — то есть любой слой можно разложить ещё на более мелкие слои

Гитхаб
HF
GGUF
Демо

спасибо @m_franz @stefanfalkok

#imageediting #image2rgba #rgba #gguf
👍15🔥41
FlashPortrait: 6× Faster Infinite Portrait Animation with Adaptive Latent Prediction

Оживлятор портретов от Microsoft и WAN на базе Wan2.1-14B

Умеет делать бесконечную анимацию, сохраняя при этом черты лица человека.
Работает в 6 раз быстрее аналогов.


Справляется с большими и сложными движениями лица, не теряя качества

Плавно соединяет фрагменты видео, чтобы переходы были незаметными

Вот тут забавно:
FlashPortrait поддерживает создание видеороликов бесконечной длины с разрешением 480x832, или 832x480, или 512x512, или 720x720, или 720x1280, или 1280x720

Но:
Если у вас возникнут проблемы с нехваткой памяти, вы можете соответствующим образом уменьшить количество анимированных кадров или разрешение выходных данных.

И кажется кто-то выложил все видео без звука

Гитхаб
HF

спасибо @m_franz

#portraitanimation
🔥13👍7
Что вы знаете о кастомизации ComfyUI? (звук)
Автор обещал выложить на гитхаб сегодня

Твиттер

#humor #comfyui
😁31🍌2👍1
Media is too big
VIEW IN TELEGRAM
MapAnything: Universal Feed-Forward Metric 3D Reconstruction

Модель от Meta (запрещено в РФ), создаёт 3D-реконструкцию сцены из разных видов данных, например, из картинок или информации о глубине и положении камеры

— берёт одну или несколько картинок и, если есть, дополнительную геометрическую инфу вроде калибровки камеры, положения или данных о глубине

— выдаёт 3D-геометрию сцены и данные о камерах

— работает как универсальная модель для разных задач 3D-видения: может делать структуру из движения без калибровки, работать с несколькими видами одновременно, оценивать глубину по одной картинке, определять положение камеры, дополнять данные о глубине и прочее

Гитхаб
Демо
HF

#imageto3d #image2scene
🔥8👍31
LongVie 2: Multimodal Controllable Ultra-Long Video World Model

Очередная генерилка длинных видео (до 5 минут) на базе Wan 2.1 480P, от Nvidia

Генерация управляется контролнетом по глубине и карте точек

Гитхаб
HF

#longvideo #image2video
1👍11
Media is too big
VIEW IN TELEGRAM
IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

Видеоредактор от Baidu
Добавляет на видео сложные эффекты типа пламя, частицы, мультяшных персонажей

Код ждем

#videoediting
👍4🤷‍♂1🤓1
This media is not supported in your browser
VIEW IN TELEGRAM
Exploring MLLM-Diffusion Information Transfer with MetaCanvas

Фреймворк, включает у мультимодальных языковых моделей (MLLM) способность генерировать изображения и видео и управлять процессом их создания. В отличие от других подходов, где MLLM просто кодируют текст для диффузионных моделей, здесь они реально участвуют в планировании и контроле генерации

Короче, MetaCanvas даёт MLLM больше власти в процессе генерации, а не просто держит их в стороне как простых текстовых кодировщиков. Возможности:

— генерирует изображения по тексту

— создаёт видео по тексту или изображению

— редактирует изображения и видео

— генерирует видео в контексте, учитывая уже имеющиеся элементы

Код ждем

#mllm #mlm #multimodal #vlm
👍8