Machinelearning – Telegram

Machinelearning

@ai_machinelearning_big_data

365K subscribers

4.5K photos

892 videos

17 files

4.94K links

Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri

Download Telegram

About

Blog

Apps

Platform

Machinelearning

365K subscribers

Machinelearning

🌟 GeoWizard — новая модель для оценки 3D-параметров изображений

GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно. Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.

Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.

git clone git@github.com:fuxiao0719/GeoWizard.git

cd

GeoWizard conda create -n geowizard python

=

3.9

conda activate geowizard pip install -r requirements.txt

cd

geowizard

🟡

Страничка GeoWizard

🖥

GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]

🟡

🟡

Arxiv

@ai_machinelearning_big_data

#Normal #3D #Depthmap #Generative #Ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍14❤4👏1

10.4K views09:22

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 DG-Mesh: Построение высококачественных полигональных сеток из монокулярного видео.

DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео. В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.

DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.

В репозитории на Github представлен код для локальной тренировки с использованием датасетов:

- D-NeRF
- DG-Mesh
- NeuralActor
- Кастомный датасет, снятый на Iphone 14 Pro и обработанный в Record3D, RealityCheck и маскированный в DEVA.

🖥 Локальный запуск:

conda create -n dg-mesh python=3.9
conda activate dg-mesh
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

# Install nvdiffrast
pip install git+https://github.com/NVlabs/tiny-cuda-nn#subdirectory=bindings/torch
pip install git+https://github.com/NVlabs/nvdiffrast/

# Install pytorch3d
export FORCE_CUDA=1
conda install -c fvcore -c iopath -c conda-forge fvcore iopath -y
pip install "git+https://github.com/facebookresearch/pytorch3d.git"

# Clone this repository
git clone https://github.com/Isabella98Liu/DG-Mesh.git
cd DG-Mesh

# Install submodules
pip install dgmesh/submodules/diff-gaussian-rasterization
pip install dgmesh/submodules/simple-knn

# Install other dependencies
pip install -r requirements.txt

🟡

Страница проекта

🖥

GitHub [ Stars: 234 | Issues: 6 | Forks: 2 ]

🟡

Arxi v

@ai_machinelearning_big_data

#Video2Mesh #3D #ML #NeRF

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤9🔥9

13K views09:48

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 RTMW(3D): Многообъектная 2D- и 3D-оценка позы всего тела в реальном времени.

RTMW (набор моделей оценки позы всего тела нескольких человек в реальном времени), - это серия моделей, предназначенных для решения тонкостей оценки позы всего тела.
RTMW основан на исследованиях RTMPose и включает в себя новые методы обработки информации о позе и различных частей тела.

Для решения ключевой проблемы оценки локальных областей низкого разрешения (например, стопы, кисти рук) были применены техники:
- PAFPN - пирамидальная сеть функций частичного агрегирования;
- HEM - модуль иерархического кодирования для повышения разрешения локальных участков;
- FPN - метод, улучшающий разрешение отдельных объектов за счет агрегирования функций с разных уровней сетевой пирамиды.

Таким образом, архитектура моделей RTMW состоит из принципов RTMPose и объединяет модули PAFPN и HEM и FPN. Одновременное использование этих модулей значительно повышает точность оценки позы всего тела.

Для оценки 3D позы всего тела была разработана модель RTMW3D, которая использует прогнозирование оси Z для головы декодера и устанавливает новую корневую точку для человеческого скелета.
Применение техники смещения оси упрощает процесс обучения модели и позволяет применять ее в задачах, связанных с высокой интенсивностью динамики объекта оценки, например, спортивное состязательное видео.

RTMW и RTMW3D тестировались на общедоступных наборах данных (COCO-WholeBody и H3WB) и показали хорошие результаты производительности и точности, в том числе в задаче оценки 3D поз всего тела.

🟢Модели RTMW c описанием различий, вариантами форматов и прямой загрузкой на странице проекта rtmpose
🟢Модели RTMW3D на странице проекта rtmpose3d

⚠️ Внимательно ознакомьтесь с материалами общего репозитория mmpose в ветках соответствующих проектов и документацией перед началом использования.

⚖️ Лицензирование: Apache-2.0 license

🟡

🖥

Open-Mmlab [Stars: 5.3K | Issues: 189 | Forks:1.2K ]

@ai_machinelearning_big_data

#3D #Posetracking #ML #MMPose

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍13🔥4✍2⚡2

10.2K views17:07

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 Simplicits: революционный подход к симуляции эластичности 3D объектов, независимый от сетки и геометрии.

Существующие инструменты для симуляции эластичных объектов часто ограничены в использовании и могут работать только с определенными типами 3D-моделей. Это создает трудности при моделировании деформации объектов разной геометрии и упругости.

Проект Simplicits предлагает сделать 3D-моделирование еще проще и универсальнее. Его главная особенность в том, что он может работать с любыми типами 3D-геометрии, выполняя моделирование изменяющихся во времени эластодинамических свойств объектов.
На вход подается 3D-модель в состоянии покоя, а на выходе получается набор данных, описывающих, как эта модель будет двигаться и деформироваться.

Метод, заложенный в Simplicits использует "функцию занятости" - математическое описание того, какие точки находятся внутри 3D-объекта, а какие снаружи. Такую функцию можно построить практически для любой 3D-модели.
Далее Simplicits применяет алгоритм линейного смешивания скиннинга (LBS). Это позволяет описать, как будет деформироваться поверхность объекта при движении. Важно, что все вычисления производятся без использования сетки из треугольников, как, например, в традиционных методах симуляции.
Вместо этого применяются спрогнозированные на основе карт деформации нейронные поля, обрабатывающие веса скиннинга для симуляции динамического движения, что делает процесс более гибким и управляемым.

Разработчики провели множество тестов Simplicits на самых разных 3D-объектах - от простых лент до сложных сцен с использованием Gaussian Splatting и NeRFs. Результаты показали, что система успешно справляется даже с объемными деформациями и множеством видов контакта поверхностей при движении, например - столкновениями объектов.

Simplicits - это важный шаг вперед в области 3D-моделирования. Он делает создание реалистичных трехмерных анимаций более доступным как для профессионалов, так и для начинающих пользователей, что предоставляет новые горизонты в таких сферах, как компьютерная графика, виртуальная реальность и компьютерные игры.

🟡

Страница проекта

🟡

🟡

Demo Видео

@ai_machinelearning_big_data

#Paper #3D #Simulation #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23❤8🔥4⚡1❤‍🔥1

9.11K views17:04

Machinelearning

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

🌟 StyleSplat: стилизация 3D-объектов с помощью Gaussian Splatting

С помощью StyleSplat пользователи могут стилизовать несколько объектов в одной сцене, применяя к каждому объекту разные стили с большой точностью.
StyleSplat спроектирован так, чтобы быть легким и эффективным, при этом давая возможность контролировать масштаб шаблонов стиля, регулируя такие параметры, как размер изображения стиля или слои, используемые для извлечения объектов.

В основе проекта применяется техника, которая использует гауссово пятно для передачи стиля трехмерных объектов. Такой подход устраняет ограничения других существующих методов, предоставляя улучшенный контроль и настройку при создании 3D.

StyleSplat выполняется в три основных этапа:

1. Сегментации видео DEVA (DEVA) и Segment Anything (SAM) для получения согласованных 2D-масок по всей сцене. Эти маски обеспечивают точный выбор объекта и служат основой для последующих шагов.
2. Гауссовская группировка, в которой каждому 3D-гауссову вектору присваивается уникальный и обучаемый компактный вектор признаков.
Оптимизируя эти векторы вместе с коэффициентами сферических гармоник, выполняется уточняющая сегментация трехмерных гауссиан, что позволяет более точно выбирать объекты.
3. Перенос 3D-стиля. Это этап тонкой настройки совмещает коэффициенты сферических гармоник выбранных гауссиан с изображением эталонного стиля. Этот этап гарантирует, что будут стилизованы только выбранные объекты, а остальная часть сцены останется нетронутой.

По сравнению с аналогичным решением S2RF, StyleSplat превосходит его по точности и визуальной достоверности.
S2RF часто приводит к обесцвечиванию нецелевых областей, тогда как использование сегментированных 3D-гауссиан в StyleSplat обеспечивает точную и изолированную передачу стиля.

🟡

Страница проекта StyleSplat

🟡

Arxiv
🖥 Coming soon...

@ai_machinelearning_big_data

#3D #Gaussian #ML #Styletransfer

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤3🔥1😁1

8.45K views17:04

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 VGGSfM: 3D-реконструкция на основе глубокого анализа структуры в движении.

VGGSfM предлагает новый подход к процессу реконструкции трехмерной структуры сцены и положения камер по набору фотографий.

Вместо цепочки отдельных алгоритмов поиска ключевых точек, сопоставления их между кадрами, длительного восстановления положения камер относительно координат ключевых точек, была разработана модель, каждый компонент которой работает параллельным сквозным принципом.

Ключевые особенности метода:

🟢Вместо поиска соответствий между парами изображений, модель сразу отслеживает точки через все кадры последовательности.
🟢Положения всех камер оцениваются одновременно, а не последовательно.
🟢Для финальной оптимизации используется дифференцируемый слой.

В ходе тестирования при обучении особенно хорошие результаты были получены на сложных сценах с большими изменениями ракурса между кадрами. Там, где традиционные методы часто терпели неудачу, VGGSfM справлялся с задачей.

Локальная установка:


source install.sh
Локальный запуск:

# Убедитесь, что целевые изображения находятся в ВАША_ПАПКА/images, а необходимые модели скачены

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models

# Результаты реконструкции (параметры камеры и 3D-точки) будут сохранены в формате COLMAP в директории output/seq_name
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
# Визуализация
# Установите и запустите visdom

pip install visdom

pip install git+https://github.com/fossasia/visdom

visdom

# Откройте http://localhost:8097 в браузере. Затем запустите демо с флагом "visualize=True"

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models visualize=True

▶️ VGGSfM поддерживает извлечение плотных карт глубины с помощью Depth-Anything-V2 (бета):


python 
pip install scikit-learn

git clone git@github.com:DepthAnything/Depth-Anything-V2.git dependency/depth_any_v2

# Затем запустите демо с флагом "dense_depth=True"

python demo.py SCENE_DIR=/path_to_images resume_ckpt=/path_to_models dense_depth=True

▪ Страница проекта
▪Модели на HF
▪Demo
▪Github [ Stars: 529 | Issues: 16 | Forks: 33]

@ai_machinelearning_big_data

#AI #3D #Depthmap #ML #Reconstruction

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22🔥7❤5⚡1🥰1

9.15K views07:02

Machinelearning

Media is too big

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 InstantSplat: реконструкция больших 3D-сцен без Structure from Motion (SfM).

InstantSplat - подход к реконструкции 3D-сцены по исходным изображениям с помощью Multi-View Stereo (MVS) и 3D Gaussian Splatting (3D-GS).

Методика InstantSplat использует выборку из самых дальних точек (FPS) в каждом вокселе, чтобы сохранить только самые надежные гауссианы для построения точного представления сцены.
Одновременное уточнение гауссовых атрибутов и параметров камеры с помощью фотометрических потерь позволяет добиться высокого качества рендеринга и точной оценки положения камеры без использования Adaptive Density Control (ADC). Для решения проблемы overparameterization, присущей 3D-GS, InstantSplat применяет confidence-aware point downsampler.
Алгоритм оптимизации в InstantSplat позволяет исправлять ошибки, накопленные на этапе MVS, в результате чего получается относительно точная и плотная 3D-модель.

По сравнению с релевантными современными методами (Nope-NeRF и CF-3DGS), InstantSplat предлагает более высокое качество рендеринга, более высокую точность оценки положения камеры при низких значениях Absolute Trajectory Error (ATE) и Relative Pose Error (RPE), при этом требует меньшего количества обучающих просмотров.

▶️Локальный запуск с автозагрузкой модели на тестовом подготовленном датасете (около 8Gb) :

# Clone InstantSplat and download pre-trained model
git clone --recursive https://github.com/NVlabs/InstantSplat.git
cd InstantSplat
git submodule update --init --recursive
cd submodules/dust3r/
mkdir -p checkpoints/
wget https://download.europe.naverlabs.com/ComputerVision/DUSt3R/DUSt3R_ViTLarge_BaseDecoder_512_dpt.pth -P checkpoints/

# Install dependencies (modify CUDA version dep. of your system)
pip install pytorch torchvision pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt
pip install submodules/simple-knn
pip install submodules/diff-gaussian-rasterization

# modify the rasterizer
vim submodules/diff-gaussian-rasterization/cuda_rasterizer/auxiliary.h
'p_view.z <= 0.2f' -> 'p_view.z <= 0.001f' # line 154

# Optional but highly suggested, compile the cuda kernels for RoPE
cd submodules/dust3r/croco/models/curope/
python setup.py build_ext --inplace

# Data preparation OR download test pre-processed sample.
cd <data_path>

# InstantSplat train and output video (no GT reference, render by interpolation)
bash scripts/run_train_infer.sh

# InstantSplat train and evaluate (with GT reference)
bash scripts/run_train_eval.sh

📌Лицензирование : Apache 2.0 license

🟡

Страница проекта

🟡

🟡

🟡

🟡

🖥

Github [ Stars: 228 | Issues: 1 | Forks: 8]

@ai_machinelearning_big_data

#AI #ML #3D #Gaussian

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23👍14❤4👏2😁1

8.65K views16:32

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Stable Fast 3D: Image-to-3D от Stability AI

Stable Fast 3D - модель и сервис, который позволяет генерировать 3D-активы из одного изображения.
Модель основана на TripoSR с значительными архитектурными улучшениями (запекание света, окрашивание вершин и marching cubes artifacts), позволяющими создавать высококачественные 3D-объекты, включая UV-развёртку, параметры материалов и альбедо с минимальным влиянием освещения.
В качестве источника используется загруженное пользователем изображение объекта, после чего модель генерирует полный 3D-объект и предлагает возможность дополнительной модификации сетки.

Stable Fast 3D доступен как для локальной установки, так и через API или с помощью он-лайн сервиса Stable Assistant.

Локальный запуск:

# Update setuptools
pip install -U setuptools==69.5.1

# For CLI-version of inference install requirements
pip install -r requirements.txt

# For Gradio UI of inference install requirements
pip install -r requirements-demo.txt

# CLI inference
python run.py demo_files/examples/chair1.png --output-dir output/

# run Gradio UI 
python gradio_app.py

📌Лицензирование :

🟢бесплатно для исследовательского, некоммерческого и коммерческого использования организациями и частными лицами, получающими годовой доход в размере до 1 млн USD;
🟠для коммерческого использования организациями и частными лицами, получающими годовой доход в размере, превышающим 1 млн USD - запрос-консультация через форму

🟡

Страница проекта

🟡

🟡

🟡

Модель на HF

🟡

🖥

Github [ Stars: 56 | Issues: 3 | Forks: 6]

@ai_machinelearning_big_data

#AI #ML #3D #SatbilityAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30❤12🔥5

17.4K views18:11

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 StackFLOW: Монокулярная реконструкция пары "человек-объект" с использованием многоуровневого нормализующего потока со смещениями.

Техническая реализация метода реконструкции состоит из двух фаз: моделирование пространственных отношений и реконструкция человека-объекта в моделируемом пространстве.

Кодирование пространственных отношений пары человек-объект выполняется методом "Human-Object Offset". Для каждой пары вычисляются смещения между всеми якорными точками человека и объекта.
Эти смещения позволяют захватить высоко детализированную корреляцию между частями человека и объекта, обеспечивая качественное кодирование 3D пространственных отношений между ними.

Затем выполняется монокулярная реконструкция человека и объекта методом "Stacked Normalizing Flow (StackFLOW)".
Для вывода апостериорного распределения пространственных отношений между человеком и объектом из изображения, вносятся векторные корректировки в позу человека и положение объекта, максимизируя правдоподобие выборок и минимизируя потери репроекции 2D-3D соответствия.

В процессе разработки метода, StackFLOW сравнивали с существующими методиками реконструкции PHOSA, CHORE и BSTRO на наборах данных BEHAVE и InterCap.
По результатам StackFLOW показал конкурентоспособные результаты.

В репозитории проекта размещены три варианта запуска проекта локально (демонстрация с окклюзиями, демонстрация оптимизации с несколькими объектами и демо с оптимизацией полной последовательности) подробные инструкции по самостоятельной тренировке и оценке на датасетах BEHAVE и InterCap.

📌 Внимательно прочитайте инструкции к каждому типу запуска, трейн-коду и оценочному запуску!

🟡

Страница проекта

🟡

🟡

🖥

Github [ Stars: 8 | Issues: 2 | Forks: 1]

@ai_machinelearning_big_data

#AI #3D #Reconstruction #VideoTo3D #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍15❤7🥰3⚡1

11K views07:21

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 Spann3R: 3D-реконструкция на основе изображений с помощью пространственной памяти.

Spann3R - уникальный метод плотной трехмерной реконструкции из упорядоченных или неупорядоченных наборов изображений.

Метод основан на концепции пространственной памяти, которая позволяет выполнять инкрементную реконструкцию сцены с помощью прогнозирования карты точек для каждого изображения в единой системе координат.

Spann3R может применяться в реальном времени для онлайн-реконструкции.

Архитектура Spann3R основана на модели DUSt3R с добавлением внешней пространственной памяти. Она включает в себя энкодер ViT, два связанных декодера (целевой и ссылочный), как в DUSt3R, и легковесный энкодер памяти.

Модель обучается на последовательностях из 5 кадров, случайно выбранных из видео, с использованием стратегии сurriculum training, которая регулирует размер окна выборки в процессе обучения. Эта стратегия позволяет Spann3R изучать краткосрочные и долгосрочные зависимости между кадрами.

Для обучения Spann3R использовались наборы данных Habitat, ScanNet, ScanNet++, ARKitScenes, BlendedMVS и Co3D-v2.

Оценка Spann3R проводилась на трех наборах: 7Scenes, NRGBD и DTU. Результаты показывают, что Spann3R демонстрирует конкурентоспособное качество онлайн-реконструкции по сравнению с автономными методами - FrozenRecon и DUSt3R, при этом превосходя их по скорости.

Spann3R достигала частоты кадров в 50 к/с без оптимизации во время оценочного тестирования. Визуализация процесса онлайн-реконструкции демонстрирует способность Spann3R понимать регулярность сцены, модель способна восстанавливать геометрию даже текстурно-однородных областей, например, стен.

⚠️ Перед локальным запуском на тестовых данных, необходимо предварительно загрузить предобученную модель и тестовый набор данных для инференса. Модель положить в папку ./checkpoints , а тестовый набор в ./examples

▶️Установка и запуск:

# Clone repository:
git clone https://github.com/HengyiWang/spann3r.git
cd spann3r

# Create conda env:
conda create -n spann3r python=3.9 cmake=3.14.0
conda install pytorch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 pytorch-cuda=11.8 -c pytorch -c nvidia 

pip install -r requirements.txt
pip install -U -f https://www.open3d.org/docs/latest/getting_started.html open3d

# Compile CUDA kernels for RoPE
cd croco/models/curope/
python setup.py build_ext --inplace
cd ../../../

# Download the DUSt3R checkpoint
wget https://download.europe.naverlabs.com/ComputerVision/DUSt3R/DUSt3R_ViTLarge_BaseDecoder_512_dpt.pth

# Run demo:
python demo.py --demo_path ./examples/s00567 --kf_every 10 --vis

🟡

Страница проекта

🟡

🟡

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #3D #Reconstruction #ViT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤13🎉8🔥3

9.15K views18:04