Concise Research
1.13K subscribers
242 photos
223 links
Исследования AI глазами исследователя
Автор: @snk4tr Сергей Кастрюлин
Download Telegram
Channel created
Channel photo updated
DiffusionDet: Diffusion Model for Object Detection
Первая работа по диффузионкам для детекции.
Основная идея в том чтобы во время форварда брать истинные bounding boxes и "зашумлять их" (добавление случайных значений к координатам, ширине, высоте) до состояния рандомных. После этого сетка учится оборачивать процесс и предсказывать истинные bounding boxes по случайным. Количество якорей не фиксировано. Non-max supression делается после "расшумления”. SOTA на MS-COCO и LVIS.
Код тут.

Revisiting Neural Scaling Laws in Language and Vision
Существует задача предсказания того как будут масштабироваться нейросетевые модели при увеличении датасета и/или количества параметров. Для этого строятся специальные модели. Ранее они представляли собой степенные функции разного вида. Замечено, что такой функционал не способен покрыть часть наблюдаемых феноменов, например являение двойного спуска. В этой статьте предлагаются:
- Новый функционал;
- Датасет + набор моделей для проведения бенчмарков;
- Новый способ оценки;
По новому способу оценки, предложенный функционал - SOTA на новом же датасете.
Код и датасет для бенчмарков.

Broken Neural Scaling Laws
Работа связана с предыдущей. Предложен еще один функционал, решающий проблемы предыдущих. Наличие датасета и понятных бенчмарков позволило получить сильный прирост за счет более гибкого моделирования. Например с произвольным числом точек перегиба. Работа также интересна большим количеством графиков из разных доменов (CV, NLP, RL) для широкого класса моделей (трансформеры, СNN) и задач (классификация, диффузия для генерации).
Код тут.
👍4
Label-Efficient Semantic Segmentation with Diffusion Models

Первая работа по применению диффузионок к задачам отличным от генерации.

Авторы считают, что если модель умеет хорошо генерировать объекты, значит она содержит все необходимые знания о семантике изображения. Остается вытащить эти знания и применить к сегментации.

Фичи извлекаются из предобученной нейронки, комбинируются и подаются в голову, которую обучают на 20-50 изображениях. SOTA для few-shot instance сегментации на ряде датасетов. Код и веса есть.
🔥3
DiffusionInst: Diffusion Model for Instance Segmentation

Работа по диффузионкам для инстанс сегментации.
SOTA подходы вроде DETR могут формулироваться как noise-to-mask. Но сразу маски генерить не оптимально и поэтому заимствуют идею из работы CondInst, в которой предлагается сначала делать некоторые фильтры, из которых потом получать сегментационные маски.

Используя подходы выше, авторы адаптируют пайплайн из DiffusionDet. В исходном подходе зашумлялись, а потом “расшумлялись” только bounding boxes. Поверх этого предлагается делать то же самое с фильтрами, из которых потом генерируются маски.

Концептуально получается двухстадийный детектор со сложной схемой внутри. При этом увеличение АР на 1% даётся ценой 3х ❗️ замедления инференса. Код есть.
🔥2
Diffusion Models: A Comprehensive Survey of Methods and Applications

Актуальная обзорная статья по теме диффузионных моделей. Поможет тем кто либо отстал и хочет догнать, либо тем кто хочет получить более широкий взгляд на то что происходит с этой областью.

Авторы предлагают таксономию исследовательских направлений и краткие описания того что происходит в каждом из них. Для ряда методов также объяснена основная идея. В конце имеется секция с обсуждением перспективных тем дальнейших исследований.
👍3
Transformers as Meta-Learners for
Implicit Neural Representations


Цель INR - представить дискретизованные данные как непрерывную функцию, параметризованную оверфитнутой сеткой. Основное ограничение: 1 сэмпл = 1 сетка. Авторы предлагают использовать трансформеры как гипер-сеть, включающую в себя представление сразу множества данных. Учить гипер-сеть предлают с помощью известного градиентного meta-learning подхода MAML. В результате получаются качественные результаты на довольно больших датасетах вроде CELEBA и Imagenette. Код есть.
👍1
From data to functa: Your data point is a function and you can treat it like one

Functa - непрерывное представление изначально дискретных данных. Это то что получается при классическом решении задачи получения INR. Авторы предлагают создавать целые датасеты functa - functasets и обучать на них нейросети. Поверх собранных functasets все равно приходится использовать meta-learning. Побить текущие SOTA таким подходом не удается, но он дает свои преимущества: 1) Более хорошее масштабирование данных, 2) Устранение проблемы гетерогенности разрешений, 3) Это естественное представление для данных вроде NeRF. Код на (!) jax + haiku.
👍1
HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

Альтернативный взгляд на то как оценивать качество генеративных CV моделей. Вместо того чтобы дизайнить еще одну метрику, авторы предлагают две методики построения краудсорсинговых исследований. Методики основана на психофизиологических исследованиях того как люди воспринимают стимулы.

В первой методике человеку показывают изображения в течение небольшого промежутка времени. Если человек отвечает верно - промежуток уменьшается. Если ошибается - наоборот.

Во второй методике время не ограничено, оценивается только количество ошибок.

Есть форма для сабмита своих результатов. Судя по давности последних сабмитов, на практике ей особо не пользуются, но саму идею можно использовать для построения новых датасетов.
👍1🔥1
Pros and cons of GAN evaluation measures: New developments

Несмотря на фокус на ГАНах, этот (не совсем свежий) обзор можно применять ко всей области метрик для генеративного CV. Автор дает краткие описания подходов, в конце делится своим видением на существующие проблемы. Полезно тем кто хочет разобраться или упорядочить знания в теме. Много ссылок на репозитории с кодом.
Extreme Generative Image Compression by Learning Text Embedding from Diffusion Models

В text-to-image генерации из текстового запроса получается картинка. Задача textual inversion в том чтобы делать image-to-text. В данном случае, авторы предлагают переводить картинку в текст (а если точнее - текстовый эмбединг), хорошо отражающий то что находится на изображении.

Эмбединг хранится как сжатое представление до момента востребования. Когда снова нужна картинка, делается text-to-image генерация. Для получения консистентных результатов, авторы предлагают свой “compression guidance”, который мало чем отличается от classification guidance.

Результаты генерации отражают семантику но не дают 100% совпадения с исходным изображением. За то подход позволяет достигнуть сверх высокой комперессии (<0.1 bpp). Кода нет.
👍2