CV Time

NeurIPS в Мехико: туториал о геопространственных foundation-моделях

В третий день конференции прошло большое количество туториалов. Один из них — Geospatial Foundation Models: Overview, Application and Benchmarking — посетил Владислав Фахретдинов из команды восприятия робота доставки. Делимся его заметками!

Выступали докладчики из бразильского подразделения IBM Research. Начали с рассказа о задаче remote sensing — дистанционного зондирования по спутниковым данным. Основное отличие от классических задач компьютерного зрения в том, что кроме RGB-сигналов необходимо использовать и другие спектральные каналы, у каждого из которых есть своё физическое назначение.

На основе этих данных можно решать множество задач, таких как сегментация земного покрова, пожарных шрамов и наводнений, предсказание глубины для водного покрова и процента покрытия деревьями.

Затем был базовый экскурс в развитие компьютерного зрения: от свёрточных моделей и трансформеров до автоэнкодеров, а после — рассказ о foundation-моделях в этой сфере.

Докладчики представили множество работ, в которых главный архитектурный вопрос состоит в том, как правильно объединять данные из разных каналов (модальностей). Отчасти это связано с тем, что нельзя просто склеить все каналы из-за отличий в разрешении, поэтому используются разные подходы:

— отдельные энкодер и декодер для каждой модальности, но общий аттеншн;
— динамический подбор размеров патчей для каждой модальности на основе длины волны и общий энкодер;
— либо разные энкодеры, но совместный семплинг патчей со всех модальностей на этапе претрейна.

После этого исследователи рассказали о своём фреймворке для обучения геопространственных моделей TerraTorch. На практике — собрали ноутбук с обучением двум разным задачам: land segmentation и burn scars.

Также авторы представили свой новый бенчмарк GeoBenchV2, который сгруппировали из 19 существующих датасетов. Взяли множество популярных в CV моделей для сравнения и дофайнтюнили их на разные задачи только на основе RGB.

В итоге оказалось, что общие модели, такие как DinoV3, дают гораздо лучшие предсказания на основе RGB-изображений, но на задачах с мультиспектральными данными более маленькие, но узкоспециализированные модели всё ещё побеждают.

#YaNeurIPS25

CV Time

❤10👍9🔥7❤‍🔥1

1.43K views13:09

CV Time

NeurIPS в Мехико: продолжаем делиться интересным

Червёртый день конференции в Мексике получился насыщенным. Было выступление Ричарда Саттона о его видении SuperIntelligence, две сессии со статьями и две — с постерами.

Самая интересная статья дня, по мнению Владислава Фахретдинова, — Perception Encoder: The best visual embeddings are not at the output of the network от Meta*. Мы уже разбирали работу в канале, а теперь делимся тем, что о ней говорят сами авторы.

Исследователи рассказывают, что поставили перед собой цель создать лучший визуальный энкодер для многих downstream-задач. Для этого двухстадийно обучались контрастив-лоссом на парах «изображение-текст» и потом — на парах «видео–текст», используя свою модель как кадровый энкодер.

Начав с CLIP-бейзлайна, добавили ряд улучшений и сравнили их по качеству и устойчивости. Уже на этом этапе модель достигла SOTA в zero-shot retrieval и классификации; назвали её PE_core.

Затем авторы протестировали модель как энкодер на разных downstream-задачах: детекции, трекинге, предсказании глубин. Увидели, что перфоманс оказался ниже ожидаемого.

В ходе исследования с помощью аттеншен-карт заметили появление глобальных токенов на определённом слое. Чтобы проверить гипотезу, стали брать эмбеддинги не с последнего слоя, а с предыдущих. Построив график качества по слоям для разных downstream-задач и моделей, увидели, что качество растёт к эмбеддингам средних слоёв, а к последним слоям — резко падает.

Для решения этой проблемы использовали два метода после обучения:

1. Чтобы сохранить глобальную информацию, провели файнтьюн на 41-м слое (который показывает близкие к лучшим значениям по всем задачам) с минимизацией косинусного расстояния между ним и последним слоем.

2. Чтобы сохранить локальную информацию, добавили файнтьюн на MSE попарного косинусного расстояния между эмбеддингами последнего слоя (H×W×1024 -> HW×HW) и попарного косинусного расстояния между логитами SAM для 1024 точек из равномерной сетки исходного изображения.

Эту модель авторы назвали PE_spatial и показали, что она достигает SOTA по многим downstream-задачам. Хотя вышедший позже DinoV3 достиг более высоких результатов, подход остаётся интересным.

#YaNeurIPS25

CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ

🔥12❤9👍4❤‍🔥2

1.77K views13:31

CV Time

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning and Efficiency

Авторы опенсорс-семейства InternVL постоянно выпускают всё новые и новые улучшения своих мультимодальных моделей, которые опережают SoTA-результаты в первую очередь по бенчмаркам. Сегодня разберём статью о свежей версии InternVL3.5.

В основе улучшений — три основных нововведения.

Cascade Reinforcement Learning

Раньше модели InternVL использовали MPO в качестве offline RL. В новой версии 3.5 авторы добавили ещё и online RL: принято считать, что на LLM/VLM он гораздо лучше, чем offline. Но offline RL значительно легче по вычислениям (в основном из-за того, что во время обучения не нужно генерировать ответы на инструкции).

Авторы показали, что offline RL не так уж сильно отстаёт от online RL, но при этом обучается в 20 раз быстрее. А лучшее качество модели достигается при совместном каскадном обучении: результаты лучше, чем у online RL, даже на двух эпохах. Так offline RL превратился в warmup для online RL.

В качестве online RL используется GSPO — модификация GRPO, которая решает проблему нестабильности обучения и «коллапса модели», особенно при тренировке Mixture-of-Experts-моделей. GRPO работает на уровне отдельных токенов, создавая шумные градиенты, а GSPO применяет оптимизацию на уровне всей последовательности целиком, что важно для длинных цепочек рассуждений.

Visual Resolution Router (ViR)

Основная цель этого нововведения — снизить вычислительную нагрузку на модель во время инференса. Этого удалось добиться за счёт уменьшения количества визуальных токенов в представлении каждого кропа картинки. Сколько токенов нужно выделить на кроп, решает роутер. Среднее количество визуальных токенов, поступающих в LLM, при таком подходе сокращается на 50%.

Стандартный процесс кодирования картинки выглядит так:

— изображение делится на кропы,
— каждый патч преобразуется в 1024 токена для ViT,
— после обработки ViT количество токенов уменьшается адаптером до 256 и передаются в LLM.

Роутер может направить токены в более агрессивный адаптер и сжать до 64 токенов. Обучение происходит в два этапа. На первом этапе модель тренируется решать задачу с меньшим количеством токенов за счёт минимизации KL-дивергенции между распределениями выходных данных изначального сжатия и более агрессивного сжатия.

Цель второго этапа — научить сам роутер ViR принимать правильные решения о степени сжатия для каждого кропа. ViR обучается как стандартный бинарный классификатор, где label кропа определяется по значению loss из первого этапа.

Итог — flash-модель практически без потери качества с ускорением до 4 раз (точная цифра зависит от разрешения картинки и размера модели).

DvD (Decoupled Vision-Language Deployment)

В этой системе модель для обработки изображений (ViT) и языковая модель (LLM) разворачиваются на отдельных серверах или GPU.

Они работают не последовательно (сначала картинка, потом текст), а параллельно. Пока языковая модель генерирует ответ на предыдущий запрос, визуальный энкодер уже обрабатывает следующее изображение. Это даёт ускорение до 2 раз для базовых моделей, а в комбинации с ViR — до 4 раз на высоких разрешениях.

По словам авторов, новая InternVL3.5 рассуждает на +16,0% эффективнее и в 4,05 раз быстрее, чем её предшественники.

Разбор подготовил ❣ Антон Астахов
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥8❤6

1.38K views09:53

CV Time

Байки из ~~склепа~~ прода Alice AI VLM

Сегодня делимся двумя ~~скримерами~~ историями из первых рук о том, с какими сложностями столкнулись разработчики новой Алисы AI в продакшне.

Популярный сценарий использования нейросети — когда пользователь отправляет в чат картинку и просит помочь с тем, что на ней изображено. За этот навык отвечают Alice AI VLM и команда компьютерного зрения Яндекса, которая её развивает. Слово руководителю подгруппы распознавания текста в VLM Антону Клочкову @blog_toxa.

Проблема первая: пережатие картинок

Те, кто имел дело с сервисами, где есть работа с картинками, не дадут соврать: найти баланс между качеством и скоростью загрузки изображений — сложная задача. Иногда баланс перевешивает в одну из сторон, и в нашем случае была проблема качества.

Как-то во время тестирования Алисы AI прилетает баг-репорт: фотография из учебника и комментарий: «Формулы выписываются неверно!» (см. картинку 1).

Проверяем в тестинге — есть ошибка. Прогоняем офлайн через модель — ошибки нет. Странно? Очень!

Оказалось, что в продакшене сильно пережимаются изображения (см картинку 2). Из-за этого путаются мелкие обозначения, вроде знаков неравенства, и иногда теряется весь смысл. Фикс был простой: мы ослабили правила на пережатие картинок.

Проблема вторая: парсинг LaTeX

Наши первые шаги к тому, чтобы сделать Алису AI действительно умной, проходили в Поиске по картинкам — там уже была готовая инфраструктура, а в чате ещё требовалась донастройка.

Однажды пришла пора тестировать решение в сервисе. И в целом, всё было хорошо, кроме одной детали. Оказалось, что на разных поверхностях (в нашем случае — Поиска и Алисы AI) по-разному работают правила парсинга LaTeX-вставок в Markdown. Например, в Поиске по картинкам формулы отображались одним образом (см. картинку 3), а в Алиса AI — другим (см. картинку 4). И это было не единственное различие в парсинге.

Решили мы это в одних случаях дообучением VLM на форматы, в других — правками во фронтенде.

Алиса AI — это не только Alice AI VLM, о которой мы пишем в этом посте, но и Alice AI LLM, Alice AI LLM Search, Alice AI ART, а ещё много крутых инженерных решений. Если хотите больше технических деталей, советуем почитать свежий техрепорт. А ознакомиться с главными фичами можно на лендинге.

CV Time

❤14🔥8❤‍🔥6👍5💩4

4.9K views10:16

About

Blog

Apps

Platform