Нейронавт | Нейросети в творчестве
11.1K subscribers
4.76K photos
4.11K videos
41 files
5.13K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
Media is too big
VIEW IN TELEGRAM
Prism

Инструмент от Open AI для совместной работы над научными исследованиями с поддержкой LaTeX, интеграцией arXiv и прочими плюшками на базе GPT-5.2 и недавно купленного редактора Crixetс

Снимки формул и диаграмм с доски автоматически превращаются в LaTeX.
Связь с arXiv: ищет и вставляет цитаты во время написания.
Правки можно вносить голосом

Базовая версия Prism доступна бесплатно.

#assistant #tools
🔥5👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Krea Realtime Edit

Krea дала бета доступ к Realtime Edit пользователям с тарифом MAX и 10000 юзеров из вейтлиста

Я зашел по ссылке и о чудо - доступ есть, хотя я даже не просился в вейтлист

Попробуйте зайти

#imageediting #realtime
👍7
LTX-2_Image2Video_Adapter_LoRa

Лора-улучшайзер LTX-2

Повышает качество: лучше сохраняет детали исходного изображения, движения в видео получаются более естественными и согласованными, расширяет генерализацию.

#ltx2 #lora
🔥16👍5
Media is too big
VIEW IN TELEGRAM
LobeHub

Платформа, где можно создавать, настраивать и объединять в команды «агентов» — программные модули, которые помогают в работе и развиваются вместе с пользователем. С её помощью можно решать сложные задачи, используя как отдельных агентов, так и их группы

Держите инвайт для входа на платформу
lobehub


#agent #assistant
👍4
SciGenBench: Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility

Генерация научных изображений, которые будут не только выглядеть правдоподобно, но и будут корректны с научной точки зрения.

Примеры сгенерированных картинок
Гитхаб

#text2image
5😱4👍1
Media is too big
VIEW IN TELEGRAM
LingBot-Depth: Masked Depth Modeling for Spatial Perception

Превращает неточные и неполные данные с датчиков глубины в точные 3D-измерения. Особенно хорошо работает там, где обычные камеры сбоят — например, на стеклянных или металлических поверхностях

В теории, можно использовать для улучшения карт глубины из других нейросеток

Гитхаб
HF

PS. У этих ребят еще есть LingBot-VLA - базовая визульно-языковая модель для роботов

#rgbd #rgbd2grbd #image2depth #video2depth
🔥7👍3
Z-Image lora training

Обучение лор доступно на ModelScope бесплатно

#zimage #lora #finetuning
👍15🤯3
This media is not supported in your browser
VIEW IN TELEGRAM
MoRo: The official Pytorch code for MoRo: Masked Modeling for Human Motion Recovery Under Occlusions

Реконструкция движения человека по монокулярному видео, даже если человек частично скрыт из виду. Камера должна быть статичной.

Работает в реальном времени со скоростью 70 кадров в секунду на одном GPU H200

Гитхаб

#humanreconstruction #hpr #videoto3d #video2pose
🔥6👍2
FLUX.2 klein LoRA - ml-sharp 3D repair

Починка геометрии и восстановление деталей синтетических ракурсов, полученных через Sharp

Было для qie2511, теперь идею подхватили и сделали для klein 9b

Спасибо @Dlvldus

#lora #novelview #flux2
👍15🔥3
Нейронавт | Нейросети в творчестве
LingBot-Depth: Masked Depth Modeling for Spatial Perception Превращает неточные и неполные данные с датчиков глубины в точные 3D-измерения. Особенно хорошо работает там, где обычные камеры сбоят — например, на стеклянных или металлических поверхностях В…
LingBot-World: Advancing Open-source World Models

Команда LingBot видимо подходит к выпуску продуктов комплексно.

На этот раз выпустили интерактивную (игровую) модель мира

Работает в рилтайме, долго держит контекст, учитывает физику. Заявляют что каждое действие в их модели имеет последствие

Пригодна не только для генерации миров, но и для реконструкции локаций

Выпустили модель LingBot-World-Base (Cam) разрешением 480p и 720p

Ждем LingBot-World-Base (Act) и LingBot-World-Fast

Кодовая база на Wan2.2

Гитхаб
HF

#world #text2world #video2scene #scenereconstruction
🔥114👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Nori: The World’s First Family AI

"Первый в мире семейный" ИИ

Nori отличается от аналогов тем, что объединяет множество функций в одном месте и позволяет всем членам семьи оставаться на одной волне


Короче вся та же скучная ботва что и у других агентов - покупка билетов, бронирование, разгребание почты, но отнишевались в семейность

Есть веб-версия и мобильные аппки, и даже есть бесплатный тариф

iOS
Android - попробуйте отсканировать QR код на офсайте

#agent #assistant #mobile
🔥21👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Relightable Full-body Gaussian Codec Avatars

Реалистичный аватар на гауссианах, взаимодействующий с освещением

Работа без кода, так, пооблизываться

Но не огорчайтесь, все равно у вас нет светового шара с 512 камерами захвата для создания массива входных данных

#gaussian #humanavatar #humanreconstruction #research
👍6👎2🔥1🥴1
AVMeme Exam

Бенчмарк для мультимодальных мультилингвальных и мультикультурных LLM. Проверяет, насколько хорошо модели понимают контекст, чувства людей и культурное значение медиаконтента.

Раз метрика появилась, значит теперь можно по этой метрике муштровать модели. А значит они и мемы у нас отберут

HF

#meme #benchmark
😁6
C-RADIOv4-H

инструмент для извлечения визуальных признаков из изображений. Превращает картинки в числовые описания (эмбеддинги), которые потом можно использовать в других моделях, например, для классификации изображений или сегментации

Обучена на обновлённом наборе моделей: SigLIP2-g, DINOv3-7B, SAM3

Может работать с изображениями размером до 2048x2028 пикселей

Выдает два типа данных: общее описание картинки и более детальные признаки, которые подходят для задач вроде сегментации или интеграции в языковые модели

На картинке сравнение с C-RADIOv3-H

HF

#vlm #image2feature
👍64🔥2