Нейронавт | Нейросети в творчестве
11.1K subscribers
4.77K photos
4.12K videos
41 files
5.14K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
LTX-2_Image2Video_Adapter_LoRa

Лора-улучшайзер LTX-2

Повышает качество: лучше сохраняет детали исходного изображения, движения в видео получаются более естественными и согласованными, расширяет генерализацию.

#ltx2 #lora
🔥16👍5
Media is too big
VIEW IN TELEGRAM
LobeHub

Платформа, где можно создавать, настраивать и объединять в команды «агентов» — программные модули, которые помогают в работе и развиваются вместе с пользователем. С её помощью можно решать сложные задачи, используя как отдельных агентов, так и их группы

Держите инвайт для входа на платформу
lobehub


#agent #assistant
👍4
SciGenBench: Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

Генерация научных изображений, которые будут не только выглядеть правдоподобно, но и будут корректны с научной точки зрения.

Примеры сгенерированных картинок
Гитхаб

#text2image
5😱4👍1
Media is too big
VIEW IN TELEGRAM
LingBot-Depth: Masked Depth Modeling for Spatial Perception

Превращает неточные и неполные данные с датчиков глубины в точные 3D-измерения. Особенно хорошо работает там, где обычные камеры сбоят — например, на стеклянных или металлических поверхностях

В теории, можно использовать для улучшения карт глубины из других нейросеток

Гитхаб
HF

PS. У этих ребят еще есть LingBot-VLA - базовая визульно-языковая модель для роботов

#rgbd #rgbd2grbd #image2depth #video2depth
🔥7👍3
Z-Image lora training

Обучение лор доступно на ModelScope бесплатно

#zimage #lora #finetuning
👍15🤯3
This media is not supported in your browser
VIEW IN TELEGRAM
MoRo: The official Pytorch code for MoRo: Masked Modeling for Human Motion Recovery Under Occlusions

Реконструкция движения человека по монокулярному видео, даже если человек частично скрыт из виду. Камера должна быть статичной.

Работает в реальном времени со скоростью 70 кадров в секунду на одном GPU H200

Гитхаб

#humanreconstruction #hpr #videoto3d #video2pose
🔥6👍2
FLUX.2 klein LoRA - ml-sharp 3D repair

Починка геометрии и восстановление деталей синтетических ракурсов, полученных через Sharp

Было для qie2511, теперь идею подхватили и сделали для klein 9b

Спасибо @Dlvldus

#lora #novelview #flux2
👍16🔥3
Нейронавт | Нейросети в творчестве
LingBot-Depth: Masked Depth Modeling for Spatial Perception Превращает неточные и неполные данные с датчиков глубины в точные 3D-измерения. Особенно хорошо работает там, где обычные камеры сбоят — например, на стеклянных или металлических поверхностях В…
LingBot-World: Advancing Open-source World Models

Команда LingBot видимо подходит к выпуску продуктов комплексно.

На этот раз выпустили интерактивную (игровую) модель мира

Работает в рилтайме, долго держит контекст, учитывает физику. Заявляют что каждое действие в их модели имеет последствие

Пригодна не только для генерации миров, но и для реконструкции локаций

Выпустили модель LingBot-World-Base (Cam) разрешением 480p и 720p

Ждем LingBot-World-Base (Act) и LingBot-World-Fast

Кодовая база на Wan2.2

Гитхаб
HF

#world #text2world #video2scene #scenereconstruction
🔥114👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Nori: The World’s First Family AI

"Первый в мире семейный" ИИ

Nori отличается от аналогов тем, что объединяет множество функций в одном месте и позволяет всем членам семьи оставаться на одной волне


Короче вся та же скучная ботва что и у других агентов - покупка билетов, бронирование, разгребание почты, но отнишевались в семейность

Есть веб-версия и мобильные аппки, и даже есть бесплатный тариф

iOS
Android - попробуйте отсканировать QR код на офсайте

#agent #assistant #mobile
🔥21👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Relightable Full-body Gaussian Codec Avatars

Реалистичный аватар на гауссианах, взаимодействующий с освещением

Работа без кода, так, пооблизываться

Но не огорчайтесь, все равно у вас нет светового шара с 512 камерами захвата для создания массива входных данных

#gaussian #humanavatar #humanreconstruction #research
👍6👎2🔥1🥴1
AVMeme Exam

Бенчмарк для мультимодальных мультилингвальных и мультикультурных LLM. Проверяет, насколько хорошо модели понимают контекст, чувства людей и культурное значение медиаконтента.

Раз метрика появилась, значит теперь можно по этой метрике муштровать модели. А значит они и мемы у нас отберут

HF

#meme #benchmark
😁6
C-RADIOv4-H

инструмент для извлечения визуальных признаков из изображений. Превращает картинки в числовые описания (эмбеддинги), которые потом можно использовать в других моделях, например, для классификации изображений или сегментации

Обучена на обновлённом наборе моделей: SigLIP2-g, DINOv3-7B, SAM3

Может работать с изображениями размером до 2048x2028 пикселей

Выдает два типа данных: общее описание картинки и более детальные признаки, которые подходят для задач вроде сегментации или интеграции в языковые модели

На картинке сравнение с C-RADIOv3-H

HF

#vlm #image2feature
👍64🔥2
Media is too big
VIEW IN TELEGRAM
MOVA: Towards Scalable and Synchronized Video–Audio Generation

Новый китайский видео-аудиогенератор "с идеальным липсинком"
Дружит с лорами, можно тренить

360p и 720p

Гитхаб
HF

спасибо @m_franz

#text2video #image2video #lipsink #av
👍15
This media is not supported in your browser
VIEW IN TELEGRAM
Grok Imagine in ComfyUI

API ноды Grok Imagine добавили в #ComfyUI

Создание / редактирование картинок и видео, блаблабла

#imageediting #videoediting
🔥124👍1😁1
Project Genie: Experimenting with infinite, interactive worlds

Гугл выдал подписчикам Google AI Ultra в США доступ к Genie 3 - генератору интерактивных игровых миров

Можно изменить готовый мир или создать свой и побродить в нем минуту. И все.

Избранным пробовать тут

#text2world #news #world
👍5