Machinelearning

👀 Релиз SAM 3.1 - одной из самых сильных open-source моделей для компьютерного зрения.

Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей.

Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами.

Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты.

Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности.

Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео.

В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки.

По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных.

Теперь модель может отслеживать до 16 объектов за один проход.

С multiplexing все объекты обрабатываются одновременно:

• меньше лишних вычислений
• нет узких мест по памяти

Результат: скорость обработки видео увеличивается примерно в 2 раза
с 16 до 32 FPS на одном NVIDIA H100!

На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека.

https://github.com/facebookresearch/sam3

@ai_machinelearning_big_data

#ai #ml #llm #cv #python

3🤩110👍46🎉29❤23👏14🔥12🙏1🌚1👾1

26.1K views05:18

About

Blog

Apps

Platform