Concise Research
1.13K subscribers
242 photos
223 links
Исследования AI глазами исследователя
Автор: @snk4tr Сергей Кастрюлин
Download Telegram
Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design

Scaling laws - законы изменения качества работы моделей при варьировании (гипер-)параметров модели/обучения. Они показывают, что при соблюдении вычислительной оптимальности (Chinchilla) можно добиться большего итогового качества, а также оценить потенциальный выигрыш от увеличения компьюта и/или датасета. В то же время, предыдущие работы уделяли мало внимания архитектурным вопросам, таким как соотношения ширины и глубины трансформеров.

Работа посвящена получению Shape Optimized ViT - SoViT. Основным инсайтом статьи является наблюдение, что небольшие ViT могут достигать качества больших при одинаковом вычислительном бюджете если оптимизировать их форму (отношение ширины и глубины). В частности, удаётся получить в 2.5 меньшую чем ViT-g/14 модель, имеющую очень близкие значения качества zero-shot и fine-tuning классификации.

Статья была бы не слишком интересной, если бы результат был получен полным перебором (~400 моделей). В данном случае, авторы обошлись 115 запусками за счет предложенной процедуры Star Sweep:
1. Начинаем с большой модели (star center) для которой нужно оптимальную меньшую, перебрав несколько параметров;
2. Выбираем один из параметров и семплируем его значения по экспоненциальной сетке так, чтобы все они были сильно (минимум в 2 раза) меньше;
3. Для самой маленькой выбранной модели перебираем все параметры по сетке для получения Парето-оптимальной стартовой точки;
4. Масштабируемся. Начиная со стартовой точки совместно увеличиваем комьют и значения параметров, масштабируя последние степенной функцией со параметром из п. 2.

На практике, оказывается, что:
1. MLP размерность должна масштабироваться быстрее чем глубина, а глубина быстрее чем ширина;
2. Число параметров ViT должно расти медленнее, чем компьют;
3. Оптимальные маленькие ViT могут достигать качества неоптимальных больших.

Одним из интересных инсайтов является то, что для маленьких ViT оптимальные параметры зависят от задачи. Ни кода, ни весов нет.
3
TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering

CLIPScore - одна из наиболее популярных метрик оценки релевантности текста и картинки. При этом, было показано, что она не чувствительна к ошибкам в подсчете числа объектов (Radford et. al, 2021), определении отношений между объектами (CREPE) и, в целом, не идеальна.

В этой статье авторы предлагают метрику оценки text-to-image релевантности TIFA. Метод работает следующим образом:
— Берём текст из пары текст-картинка и подаём его в генеративную языковую модель (GPT-3) с запросом сформулировать вопрос к тексту с несколько вариантов ответов. Только один ответ должен быть верным;
— Фильтруем вопросы с помощью Visual Question Answering (VQA) модели (UnifiedQA). Идея в том, чтобы выбирать только те вопросы, для которых GPT-3 и UnifiedQA соглашаются в ответах, а сами слова для ответов очень похожи.
— Берём картинку из той же пары и сгенерированный в п. 1 вопрос с вариантами ответа. Подаём их в еще одну VQA модель (mPLUG-large) ;
— Измеряем согласованность ответов двух QA моделей (текстовой и картиночной). Это и есть метрика.

Авторы соглашаются с тем, что метод чувствителен к качеству работы сразу нескольких компонентов (генеративная LLM, VQA модели) и, в целом, состоит из большого числа элементов. В результате, не очевидно, что он должен работать хорошо.

Для верификации качества подхода предлагается бенчмарк TIFA v1.0, состоящий из 4,081 текстов (COCO captions, DrawBench, PartiPrompt, PaintSkill) и 25,829 соответствующих им комбинаций вопросов-ответов. На части бенчмарка были сгенерированы 800 изображений с помощью популярных диффузионок (minDALL-E, VQ-Diffusion, Stable Diffusion v1.1, v1.5, and v2.1) и собраны аннотации текстовой релевантности по шкале 1-5, переведенные далее в MOS. Авторы показывают, что предложенная метрика показывает SRCC ~ 0.6, в то время как CLIPScore имеет SRCC ~ 0.33. Присутствует ablation на тему использования альтернативных VQA моделей. Код и датасет выложены.
👍1
What You See is What You Read? Improving Text-Image Alignment Evaluation

Модели вроде CLIP, BLIP и COCA используются для оценки релевантности текста и изображения. Но как измерить их способность оценивать релевантность? Насколько каждый из методов согласуется с человеческими оценками? Сейчас для этого используются косвенные признаки: zero-shot/few-shot качество решения дискриминативных задач на общепринятых бенчмарках вроде ImageNet.

Недавно была предложена метрика и бенчмарк TIFA. Авторы TIFA предлагают для каждого текста из пары текст-картинка генерировать вопросы и ответы, а затем измерять согласованность верных ответов, полученных из текста и картинки.

В этой работе, авторы используют похожий подход с использованием VQA моделей и предлагают два метода:
1. VQ^2 - похоже на TIFA, только измеряется верность текстового ответа при данной картинке;
2. Visual NLI models (VNLI) - обучаем модель непосредственно предсказывать текстово-картиночную релевантность. Для этого берутся BLIP2 и PaLI-17B и файнтюнятся на задачу предсказания бинарного ответа (“yes”, “no”) на вопрос. Для этого используется датасет из 100к пар текст-картинка, размеченный ассессорами. Негативные и нейтральные (не релевантные) примеры генерятся автоматически.

Помимо метода, авторы также предлагают свой бенчмарк, состоящий из ~32k пар текст-картинка, взятых из нескольких датасетов. Пары размечены ассессорами на релевантность.

Предложенные метрики могут быть использованы для оценки качества работы text-to-image моделей. В статье есть несколько примеров того как VQ^2 и затюненная PaLI оказываются более чувствительными к огрехам генерации Stable Diffusion, чем CLIP RN50. Код и данные выложены.
1
Learning the Visualness of Text Using Large Vision-Language Models

Мы уже привыкли думать о парах текст-изображение в терминах текстовой релевантности: соотносится ли то что написано с тем что изображено? Авторы предлагают взглянуть на проблему под другим углом и ввести понятие text visualness. Один текст может описывать пейзаж, другой - юридические законы. Оба текста могут быть вполне когерентны, но иметь разную visualness: в первом случае читатель будет способен представить себе картину описанного, во втором - нет. Эксперимент с генерацией DALL-E и Imagen показывает, что у моделей тоже возникают трудности с не визуальными текстами.

Для решения задачи определения text visualness авторы предлагают Text Imageability Dataset (TImeD). Он состоит из двух частей.
— Первая содержит ~15к визуальных и ~32к не визуальных текстов полученных автоматическим парсингом PDF документов. Информация о text visualness косвенно извлекается из релевантности иллюстраций и предложений в тексте.
— Вторая содержит ~3.6k текстов. Она получена таким же образом, но дополнительно размечена ответами ассессоров на вопрос: “Do you agree
that the sentence below evokes an image or picture in your mind?”
.

Предложенный датасет используется для дообучения CLIP на задачу определения text visualness. Во время дообучения, визуальные тексты сопоставляют с их изображениями, а не визуальные - со специальными NULL изображением (шум). Это позволяет модели выучить разницу между визуальными и не визуальными текстами, а также привязать не визуальные тексты к NULL картинке, которая может использоваться в случае отсутствия пары. CLIP последовательно дообучают на обеих частях TImeD для получения модели TIP-CLIP.

Эксперименты показывают, что карты внимания TIP-CLIP более сфокусированы на визуальные индикаторы в текстах, а отобранные моделью тексты приводят к более качественным генерациям t2i моделями. Страница проекта, код не обещают.
An Inverse Scaling Law for CLIP Training

CLIP и Open-CLIP — foundation модели, послужившие причиной прорывов во многих областях, в том числе text-to-image генерации. Однако, для их обучения требуются не малые вычислительные ресурсы. Сравнительно небольшой OpenCLIP-B/16 обучали ~10k GPU часов на А100 для получения скромных 67.1% zero-shot на ImageNet1k.

Авторы статьи задались вопросами вычислительной оптимальности текущих пайплайнов обучения и предложили:
— Набор трюков для ускорения обучения моделей текстовой релевантности;
— Результаты scaling laws экспериментов, показывающие как соблюдать балланс между длинами последовательностей и ёмкостью моделей.

Про трюки:
— Для картинок используются комбинации ранее известных механизмов маскирование токенов (кропов): Random, Grid, Block + ресайзинг бикубик интерполяцией с антиалиасингом;
— Для текстов используется truncation (берем первые N токенов, остальное выкидываем), random masking, block masking (выкидываем случайные блоки токенов) и syntax masking (с наименьшей вероятностью убираем существительные).

Про scaling laws:
Перебирали оси: размер модели (S/16, B/16, L/16), длины последовательностей токенов и компьют. Главным неочевидным наблюдением является то чем бОльшие картиночные/текстовые энкодеры используются, тем менее они чувствительны к уменьшению длины используемой последовательности токенов. По этой причине авторы называют полученный закон Inverse.

Все замеры делаются на прокси задачах, в основном zero-shot классификация и retrieval. Правильно подобрав соотношение длины последовательности, размера модели и трюков с подготовкой данных, удается сократить итоговое количество затраченных на обучение GPU часов во много раз. Так, удается обучить L/16 до 69.3% на ImageNet1k за 4 дня на одной машине с 8хА100.

Помимо результатов авторы делятся своим фреймворком для эффективного обучения.
🔥1
DreamSim: Learning New Dimensions of
Human Visual Similarity using Synthetic Data


Есть такая задача - оценивать похожесть картинок. Основные, публично доступные сейчас методы - IQA метрики (LPIPS, DISTS, PieAPP) и модели текстовой релевантности (CLIP, DINO, MAE). Принцип работы первых основывается на анализе низкоуровневых признаков. Они задумывались для поиска артефактов, бОльшая часть которых сильно локализованы. Вторые анализируют картинки целиком и могут хорошо понимать близость концептов, но могут иметь проблемы с менее высокоуровневыми характеристиками: цвет, композиция, изменение мелких деталей.

Авторы поставили целью получить модель, способную работать на неком среднем уровне и хорошо согласовываться с человеческим пониманием похожести изображений.

Основной вклад - датсет NIGHTS, состоящих из триплетов: исходная картинка и две её вариации, полученные с помощью Stable Diffusion (SD). Авторы придумали интересный метод сбора разметки. Ассессоров просили выбрать наиболее похожую вариацию из двух предложенных. Начали со 100к триплетов, которые разметили по 1 разу. После этого, процедуру повторили, но оставили только те примеры, в которых ответы первого и второго раунда совпали. Так продолжали 10 раундов, в результате чего осталось ~20k триплетов с единодушными ответами, они и составили финальный датасет. Довольно интересный способ получить разметку с малой (нулевой) дисперсией в столь сложной и, казалось бы, субъективной задаче.

Новая модель представляет собой ансамбль нескольких тушек из CLIP/MAE/OpenCLIP, затюненных с помощью LoRA hinge лосс. Итоговая модель имеет точность порядка 0.96. Её эффективность также показали на задаче image retrieval и feature inversion, где “на глаз” заметны более качественные результаты.

Важно отметить, что в датасете нет лиц людей, а сама модель может иметь баес на SD. Код и данные выложены.
🔥2
Scaling Data-Constrained Language Models

Большие языковые модели (LLM) обучают на огромных корпусах текстовых данных. При этом, размеры датасетов позволяют проходить по текстам без повторений. Это значит, что обучение, формально, длится менее одной эпохи.

Все предыдущие scaling laws работы были выполнены именно в таком режиме. В то же время, оценки по Chinchilla-оптимальности показывают, что данные скоро кончатся, то есть для обучения самых больших моделей прийдется несколько раз проходиться по датасету. Возникает вопрос: как будут масштабироваться модели в режиме, когда количество данных станет ограничено?

Авторы проводят следующие эксперименты:
1. Фиксируют датасет, варьируют количество эпох и параметров в модели (используют GPT-2-подобную архитектуру);
2. Фиксируют вычислительный бюджет, варьируют размер датасета в терминах количества уникальных токенов (до 900В) и эпох обучения.
3. Оптимизируют scaling law - функцию масштабирования качества работы модели в зависимости от выбранных параметров. Функцию экстраполируют для получения предсказаний того как будет вести себя модель на бОльших масштабах данных/компьюта.

В статье очень много интересных наблюдений, вот некоторые из них:
— В текущем сетапе (“1 epoch training”) модели существенно недоиспользуют данные. Зафиксировав множество данных, лучший лосс (по нему оценивают качество) получается при использовании в 20-60 раз бОльших моделей и числа эпох, чем делается сейчас.
— При обучении с несколькими проходами по данным, на увеличение числа эпох следует тратить бОльшую часть имеющегося вычислительного бюджета чем на увеличение размера модели.
— Насыщение данные происходит достаточно медленно. Например, для некоторых зафиксированных модели/датасета и 4 эпох обучения, валидационный лосс всего на 0.5% больше, чем при обучении на тем же количество уникальных токенов.
— В среднем, обучение до 16 эпох даёт неплохие улучшения качества, после чего начинаются diminishing returns.

Код, модельки, датасеты выложены.
👍2
When are ensembles really effective?

Ансамблирование - популярная техника улучшения качества решения задач, особенно в соревновательном ML. Deep ensembles продолжают использовать для комбинирования моделей и оценки uncertainty, а бустинги остаются наиболее популярным методом решения большого класса задач.

Не смотря на это, нет до конца выработанной теории на тему того когда все-таки использование ансамблей даёт прирост и всегда ли выгоднее использовать ансамбль вместо одной, тяжелой модельки.

Авторы атакуют проблему с двух сторон: теоретической и практической.
Теоретически доказывается, что:
1. Компетентный ансамбль никогда не ухудшит работы системы. Компетентный ансамбль значит, что каждая входящая в него модель работает лучше рандома.
2. Ансамбль тем эффективнее, чем менее оптимальные (в терминах доли от максимального качества) и рассогласованные модели входят в него.

Практические результаты подтверждают теорию, а также практикой показываются несколько довольно теоретических законов 😂. Например:

Будем называть модель интерполяционной, когда у нее нулевая ошибка на обучающей выборке и не интерполяционной в противном случае. Тогда, ансамбли интерполяционных моделей улучшают качество строго хуже, чем не интерполяционных. Иными словами, это означает, что переобучение плохо сказывается на эффективности ансамблирования.

Если вам кажется, что в сказанном ничего нового, то в этом есть доля правды. Действительно, подобные рассуждения гуляют по статьям и блогам уже давно. Статья же про наведение порядка и формальные доказательства того что давно считается conventional wisdom.

Все эксперименты на довольно простых бенчмарках вроде MNIST, CIFAR, IMDB. Модели тоже небольшие. К слову, вопрос про ансамбль vs большая моделька остался не адресованным. Кода нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models

Концепт - абстрактное понятие, характеризующее объект или мысль, которая также может служить основанием для человеческого восприятия. В области компьютерного зрения под концептами могут пониматься материальные сущности: физически существующие объекты и отношения между ними, их позы и поведение, а так же стилизация изображений в целом. В ходе обучения модели запоминают концепты, в том числе и те, которые нам не хотелось бы видеть потом в генерациях.

Работа посвящена задаче удаления концептов из уже обученных генеративных моделей. Предлагается:
1. Просчитать текстовые эмбединги нежелательных концептов;
2. Просчитать карты внимания между входными признаками и текстовыми эмбедами из п.1;
3. Минимизировать значения карт внимания и обновить веса модели.

Бывает, что нежелательный концепт плохо формализуется словами или необходимые токены отсутствуют/плохо выучены текстовой моделью. В этом случае предлагается использовать текстовую инверсию. К сожалению, это все детали по методу, представленные в статье.

Для оценки качества предлагается бенчмарк ConceptBench и метрика Memorization Score (M-Score). Бенчмарк включает три категории (object, identity, style) разной уровни абстрактности и сложности. Деталей также не много. Из описания следует, что это бенчмарк включает в себя большое количество категорий, часть из которых имеет иерархическую структуру. Например, в категории instances, у класса Dog если подклассы Corgi и Husky.

Эффективность подхода замеряют с помощью текстовой инверсии: замеряют косинус угла между эмбедингами концепта, полученного по изображению до и после применения процедуры удаления концепта. Код обещают тут.
Emerging Properties in Self-Supervised Vision Transformers

Статья о модели DINO, ставшей уже классическим примером self-supervised learning (SSL) претрена общего назначения в области комп. зрения.

На момент публикации уже существовали LLM, основанные на трансформере и показывающие классные результаты за счет SSL, например BERT c его next sentence prediction и GPT с language modelling. А ViT все предобучали на классификацию. У авторов возник логичный вопрос: а можно ли придумать SSL схему для ViT такую что:
— Модель станет SOTA для zero-shot/few-shot решения широкого круга задач;
— У модели начнут появляться особые свойства, отличные от тех что наблюдаются у CNN при SSL.

Метод состоит из двух основных компонент.

1. Knowledge distillation.
— Две сети (student - s, и teacher - t) с идентичными архитектурами инициализируются одинаково
— Через обе пропускают одно и то же изображение аугментированное по-разному. Основная аугментация - кропы по стратегии из SwAV, которые бывают локальные (маленькие) и глобальные (большие). s видит оба типа, t - только локальные. Это заставляет s учить взаимосвязь между локальными и глобальными признаками.
— Лосс - кросс энтропия между предсказаниями классов s и t
— Градиент пускают только через s, t обновляется как EMA по весам s.

2. Трюки для предотвращения mode collapse (ситуации, когда модель научается генерить вектор, тривиально удовлетворяющий условию лосса):
— Contrastive loss (e.g., Instance Discrimination)
— Clustering constraints (e.g. SwAV)
— Predictor & batch norm (e.g., BYOL)
— Batch norm alternatives (e.g., Group norm)

Модель оценивают с помощью уже привычных сегодня процедур linear probing и kNN eval. Солидные на момент публикации 78.3% на ImageNet1k за счет всего лишь ViT-S/8 в kNN сеттинге показывают эффективность в случае, если вам нужен чисто картиночный претрен. Правда стоит сделать скидку на то что модель обучалась на ImageNet1k, хоть и не видела меток. Солидный ablation и высокая практическая ценность делает работу очень важной в области SSL. Код и модельки.
👍3
DINOv2: Learning Robust Visual Features without Supervision

Развитие DINO в части пересмотра self-supervised learning (SSL) фреймворка в случае наличия большого датасета. В работе также описывается пайплайн подготовки датасета LVD-142M, а также увеличения эффективности обучения, что становится важно на таких масштабах.

LVD-142M собирают из Google Landmarks v2, ImageNet-22k, ImageNet-1k, нескольких мелких датасетов + Common Crawl (СС). Для эффективного добавления примеров из СС, проводится кластеризация картинок k-means на 100к кластеров, после чего:
— Для больших датасетов, для каждого изображения берутся k in [4, 22] из ассоциированных CC кластеров
— Для маленьких, для каждого кластера, состоящего из >3 картинок, берутся k=10k изображений из соответствующих СС кластеров

Метод обучения является комбинацией нескольких известных подходов:
DINO: кросс-энтропия между признаками, извлеченными из student и teacher сетками, каждые из которых получены из CLS токенов ViT, в который подаются разные аугментации одного и того же изображения
iBOT: часть патчей, подаваемых student (но не teacher) маскируются. Затем, вычисляется кросс-энтропия на признаках маскированных патчей. Лосс комбинируется с тем что выдаёт DINO часть
SwAV: шаг центрирования перед вычислением кросс-энтропии в DINO/iBOT заменяется на e Sinkhorn-Knopp (SK) batch norm из SwAV потому что в работе MSN показали, что так лучше
— Еще несколько трюков, такие как KoLeo regularizer и увеличение разрешения в конце обучения.

Архитектурно, модели семейства DINOv2 представляют собой ViT от S/14 до g/14, ускоренные за счет Flash Attention, своей продвинутой вариации stochastic depth, PyTorch имплементации Fully Sharded Data Parallel (FSDP) и Replace one Branch (RoB) дистилляции.

Большие версии полученных моделей показывают уверенную SOTA почти на всех картиночных и видео бенчмарках в задачах zero-shot классификации, семантической сегментации и оценки глубины. Код и веса моделей выложены.
👍6🔥1
OBELISC: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

Датасетная статья, посвященная получению большого набора документных данных в формате текст-картинка под названием OBELISC. Отличие от LAION-подобных датасетов заключается в ожидаемом более высоком качестве пар из-за наличия структуры, заложенной в исходных HTML данных из common crawl.

Высокоуровнево, процедура получения датасета описана на приложенном изображении. Важным моментом является фильтрация текстов на первой стадии. Авторы предлагают:
— Определять и убирать не английские тексты с помощью Fast Text.
— Делать раннюю дедупликацию.
— Определять и убирать тексты большим количеством повторений с помощью MassiveText.
— Убирать не качественные тексты с помощью лог рег классификатора, который обучался на Wiki как положительных примерах и случайных текстах из common crawl как отрицательных.

Анализ, проведенный авторами, показывает, что новый датасет содержит меньше повторений картинок, более разнообразный контент, более качественные (более похожие на Wiki) тексты, чем предшествующие датасеты из этого класса.

Эффективность датасета проверяют обучением на нём Flamingo-подобной vision-language модели с предобученными LLaMA и OpenCLIP текстовой и картиночной частями соответственно и обучаемыми cross-attention блоками между ними. Модель обучают на предсказание следующего токена, оценивают на задачах visual question answering, hateful speech detection, image captioning. Судя по графикам, учить такую модель действительно лучше на маленьком, но качественном OBELISC лучше, чем на LAION, а если скомбериновать - вообще топ.

Датасет и код выложены, а вот веса модели, похоже, нет.
👍1
CoCa: Contrastive Captioners are Image-Text
Foundation Models

TMLR 2022

Мультимодальные модели полезны тем что позволяют объединить знания, представленные с помощью двух крайне богатых и распространенных видов данных: картинок и текста. Наиболее популярные подходы для получения таких моделей:
— Dual Encoder Contrastive Learning - модели вроде CLIP, ALIGN, LiT, FLAVA, имеют две тушки и учатся отображать их выходы в одну точку с помощью contrastive loss;
— Encoder-Decoder Captioning - модели вроде BLIP, которые принимают на вход картинку и учатся авторегрессивно предсказывать следующий текстовый токен.

Подобные модели учатся на значительных объемах данных, и в результате начинают проявлять интересные побочные свойства, такие как способность неплохо решать классификационные задачи без явного обучения на них. Помимо этого, энкодеры, полученные таким образом, являются великолепными претренами для практически любых задач. По это причине, модели этого класса начали называть foundation.

Работа посвящена получению новой foundation модели, которая бы объединила два описанных выше подхода: дискриминативный и генеративный. Для этого предлагается новая архитектура, состоящая из одной картиночной и двух текстовых моделей.

На рисунке представлена схема пропускания данных: сначала картинка и текст проходят через соответствующие энкодеры, на полученных эмбедингах вычисляется contrastive loss. Эта часть соответствует CLIP-подобным подходам. Далее оба выхода подаются в текстовый декодер через cross-attention. На выходе получаются текстовые токены и вычисляется captioning loss, а итоговый loss представляет собой взвешенную сумму. Таким образом, картиночный и первый текстовый энкодеры представляют собой dual encoder пару, а две текстовые модели - encoder-decoder.

Модель учили с нуля на комбинации датасетов JFT-3B и ALIGN, т. е. порядка 4В картинок и 1В текстов. Валидировали на куче задач, включая retrieval, классификацию, VQA, image captioning. На части задач модель даже показала SOTA качество. Код и веса не доступны.
👍1
Channel photo updated
VILA: Learning Image Aesthetics from User Comments
with Vision-Language Pretraining

CVPR 2023

Большинство модели Image Aesthetics Assessment (IAA) обучаются на mean opinion scores (MOS), что может ограничивать их качество, поскольку они вынуждены извлекать всю информацию об эстетичности из единственного предоставленного им скаляра.

Авторы предлагают обогатить данные использованием текстовой информации в виде комментариев с сайтов для публикации эстетических фото, таких как Flickr и DPChallenge. Главной целью является получение наиболее хорошо обобщающейся модели, которая будет устойчива к изменению типов изображений и особенностей разметки конкретных датасетов.

Метрика основывается на разобранной выше модели CoCa. Обучение делится на три этапа:
1. CoCa обучают на подмножестве LAION-5B, получая модель общего назначения;
2. Модель дообучают на AVA-Captions, который состоит из изображений, сопровождаемых несколькими комментариями. Авторы берут случайный коммент к каждой картинки, получая таким образом пары для обучения.
3. Специализация модели на задачу IAA дообучением на MOS. Авторы избегают прямого дообучения всей модели по причине вычислительной неэффективности и потери обобщаемости.

Рассмотрим последнюю стадию отдельно. Простым и понятным подходом было бы обучить поверх полученных картиночных эмбедингов MLP “голову”. Вместо этого, авторы предлагают подход, концептуально схожий с работой CLIP-IQA. Выбираются два текстовых “якоря” (`good image` и `bad image`), относительное расстояние для которых и будет являться метрикой. Исходные эмбединги могут быть не достаточно чувствительны для такого использования, поэтому третья стадия обучения заключается в дообучении на MOS небольшого (0.1% всех весов) адаптера поверх картиночных эмбедов с помощью triplet ranking loss.

Полученная таких образом модель побеждает SOTA модели вроде TANet на AVA датасете в zero-shot режиме. В статье есть некоторый ablation на темы важности типов предобучения и метода получения адаптера. Код и веса модельки на JAX.
👍3
CLIP knows image aesthetics

Для чего только не применяли CLIP: классификация, сегментация и детекция объектов на изображениях, использование в качестве энкодера для текстового conditioning в дифуузионных моделях и даже оценка качества изображений. А вот для оценки эстетичности картинок CLIP еще не применяли, что и было исправлено авторами.

В статье исследуется три подхода к использованию “великого знания”, полученного засчет масштабного image-text предобучения. Подходы упорядочены по мере увеличения степени супервижена:
1. Prompting - пробуют максимизировать качество zero-shot классификации (эстетичная/не эстетичная картинка), подбирая тексты и их комбинации. Также показывают, что косинус угла между картинок и векторами подобранных эмбедингов коррелирует с MOS.
2. Linear probing - обучают линейную голову поверх замороженного CLIP как и в случае с задачей ImageNet/whatever классификации. Показывают, что:
— В такой постановке CLIP сильно лучше моделей предобученных на ImageNet
— Можно даже обогнать некоторые ImageNet модели, обучавшиеся на MOS эстетичности
3. Finetuning on AVA - показывают, что
— CLIP претрен более хорош для файнтюна чем ImageNet, поскольку позволяет сойтись быстрее и до более высокого качества
— Стартуя с CLIP претрена можно доучиться до уровня SOTA IAA/IQA моделей без дополнительных изощрений по части архитектуры и процедуры обучения. Так, например, удаётся немного обогнать обученную на AVA IQA модель MUSIQ.

В области IAA принято сравниваться с NIMA - не самой лучшей, но самой известной и широко используемой метрикой эстетичности. Так вот, побить NIMA удаётся только с помощью linear probing. Prompting подход интересен, но слабоват в терминах SRCC с MOS. Статье немного не хватает экспериментов и сравнений с другими, более сильными моделями, а также эвалов на альтернативных IAA датасетах. Код доступен.
🔥5🫡1
The Vendi Score: A Diversity Evaluation Metric for Machine Learning
TMLR 2023

В экологии (вот это начало 😂), одним из основных методов определения разнообразия задаётся экспонентой энтропии распределения наблюдаемых видов. В таком случае, если вся популяция будет состоять из одного вида, мы получим минимальное значение. Если же все особи будут принадлежать отдельному виду при равномерном распределении видов, значение разнообразия будет максимальным.

В машинном обучении, в основном, используется два вида метрик разнообразия:
— Оценивающие похожесть двух распределений (например, FID);
— Основанные на классификационной модельке, то есть подразумевающие маргинальное распределение какого-нибудь ImageNet в качестве референса (например, Inception Score).

Иногда нам хочется измерить разнообразие объектов в распределении не привязываясь к знанию о каком-то “идеальном” распределении, которе обычно неизвестно. Кстати, по этой причине мы не можем просто честно посчитать энтропию выборки.

Для решения проблемы, авторы предлагают метрику Vendi Score, - экспоненту энтропии собственных чисел матрицы значений ядер (матрица Грамма). Здесь ядро - это некоторая положительно определенная функция, а матрица грамма - матрица попарных значений этой функции для объектов выборки. В качестве примера, можно рассматривать RBF kernel, широко применяющееся в SVM. Альтернативная формулировка Vendi Score - эффективный ранг матрицы Грамма.

Понятно, что вычисление такой метрики будет затратно при работе с объектами большой размерности, например с изображениями. Поэтому предлагается считать её на эмбедингах. В результате, сложность падает до сопоставимой с FID.

Работа скорее теоретическая, однако есть эксперимент, показывающий возможность детектирования mode collapse в GAN. Есть подсчеты метрики для нескольких генеративных моделей на CIFAR-10, ImageNet 64x64, LSUN Cat & Bedroom 256×256, где результаты неплохо согласуются с Inception score, FID, PR. Код есть.
Please open Telegram to view this post
VIEW IN TELEGRAM
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Еще одна, уже успевшая хорошо зарекомендовать себя, SSL image-text модель.

Мотивируют авторов наблюдения:
1. Encoder-only SSL модели (CLIP) трудно применить к генеративным задачам (image captioning), а encoder-decoder модели (SimVLM) - к дискриминативным (retrieval).
2. Учиться на шумных данных не эффективно, нужно придумать метод фильтрации больших массивов image-text данных.

В статье предлагаются решения соответствующих проблем:
1. Архитектурные изменения - взять картиночный и текстовый (№1) энкодеры и обучать с constrastive loss (как в CLIP). Добавить к ним еще два блока:
— Image-grounded text encoder (№2) - получает на вход текст и картиночный эмбед через cross-attention, выдаёт эмбед, который является совместным представлением картинки и текста;
— Image-grounded text decoder - получает на вход то же самое, но учится генерировать текст.
Все три текстовые части учатся с разными лоссами, но сильно шарят веса. Например, feed forward часть вообще везде одна и та же как и cross-attention блок, за чем исключением, что в первом энкодере он просто выключен.
2. Фильтрация данных:
— Обучить первую версию модели на “грязных” данных (LAION-2B);
— Нагенерить ей синтетических текстов к картинкам из датасета с “грязными” данными;
— Объединить обе эти части;
— Отфильтровать данные по качеству соответствия картинки тексту. Для этого нам пригодится энкодер №2, потому что он как раз этому и учился. В качестве альтернативы, можно использовать картиночный и текстовый (№1) энкодеры и вычислять похожесть как похожесть эмбедов картинки и текста.
— Обучить итоговый BLIP на отфильтрованных данных.

Код и модель выложены авторами в открытый доступ.
👍1
SAM-IQA: Can Segment Anything Boost Image Quality Assessment?

Segment Anything (SA) - сравнительно новая модель, претендующая на звание foundation в области комп. зрения. В отличие от разобранных выше SSL претренов, SA предобучали на вполне себе supervised дискриминативную задачу. Это может быть как плюсом (сегментацию можно получать не интерпретацией карт внимания, а напрямую), так и минусом (“заточенность” под конкретную supervised задачу).

Авторы работы проверяют применимость SA к, казалось бы, не релевантной для модельки задаче IQA. Во-первых, сама задача сегментации про то игнорирование частотных особенностей картинки и выделение семантики во что бы то ни стало. Во-вторых, SA обучали с аугментациями, цель которых - сделать модель еще менее чувствительной к чему-то не семантическому.

Тем не менее, авторы показывают, что если поверх SA фичей прикрутить голову и поучить на стандартных IQA датасетах, можно выбить SOTA качество. Что это значит? Вероятно, IQA датасеты, кроме PIPAL (на котором, кстати, авторы не замеряются), изжили себя. Огромное количество моделей способны получить SRCC близкое к единице, даже те, которые явно не должны быть на это способны.

В общем, новая IQA модель, сонаправленная с общими трендами области. Практическую ценность еще предстоит выяснить, а вот замеряться с ней в следующих работах прийдется. Кода нет, обещают тут.
👍4🤔1
Self-Consuming Generative Models Go MAD

Text2Image модели обучают на датасетах вроде LAION-5B, которые частично состоят из синтетических пар - результатов генераций моделей предыдущих поколений. Авторы задаются вопросами:
— Как наличие в датасетах синтетики влияет на качество обучаемых на них генеративных моделей?
— Что будет, если итеративно обучать каждое новое поколение моделей на датасетах, содержащих результаты предыдущих поколений?

Валидируется широкий класс моделей: диффузионки, GAN, Normalizing Flows в трёх постановках задачи:
1️⃣ Датасет полностью состоит из синтетики. Это моделирует ситуацию тюнинга модели на её лучших генерациях.
Результат: со временем, деградирует либо качество, либо вариативность генераций.
2️⃣ Датасет содержит не только синтетические (реальные) данные, но они каждый раз одинаковые.
Результат: это не помогает, только немного откладывает деградацию модели.
3️⃣ Датасет содержит не только синтетические (реальные) данные, при этом они каждый раз разные.
Результат: при достаточном количестве “свежих” данных, качество со временем не деградирует.

В статье есть несколько любопытных наблюдений. Например, обычно, тюнинг моделей происходит на наиболее удачных примерах генерации. В статье это моделируется выбором семплов шума близких к центру нормального распределения, поскольку их качество должно быть выше. Оказывается, что:
— Если специально не выбирать удачные примеры, то со временем падает и качество и разнообразие генераций
— Если выбирать, то качество может не падать, зато вариативность генераций падает с удвоенной скоростью

Все эксперименты проводились на FFHQ и MNIST, замеры качества с помощью FID и PR. Кода нет.
🤯31👍1🤔1
BLIP-2: Bootstrapping Language-Image Pre-training
with Frozen Image Encoders and Large Language Models


BLIP - хорошо зарекомендовавшая себя SSL модель, интересная тем, что сочетает в себе генеративную и дискриминативную компоненты. Вторая версия модели улучшает качество и уменьшает вычислительную стоимость. Делается это за счет новой архитектуры Q-former (1) и двухстадийного пайплайна обучения (2).

1. Основной трюк, позволяющий добиться хороших результатов - своего рода дистилляция предобученных больших картиночных и текстовых моделей. Q-former представляет собой мостик между “замороженными” ViT и OPT/FlanT5. Внутри Q-former два трансформера: первый обрабатывает картиночные эмбединги, второй - текстовые. Как и в первой версии BLIP, трансформеры имеют общий self-attention блок, который маскируется в случае, если нужно работать с одним типом данных.

2. Обучают Q-former в две стадии:
— Vision and Language pretraining: два лосса обучают модель сопоставлять картинку и текст (contrastive learning, matching), третий - генерировать текст на основе картинки. В этой стадии участвует только замороженная картиночная модель, в том время как внутри Q-former обучаются обе (картиночная, текстовая) части.
— Vision-to-Language Generative Learning - полученная на предыдущей стадии модель теперь рассматривается как цельный черный ящик, выходы которого подаются в замороженную LLM. Поскольку авторы экспериментируют в двумя типами LLM, есть вариации на тему того как устроить эту стадию. Для decoder-based LLMs, выход Q-former используется как condition для обучения с LLM лоссом. Для encoder-decoder моделей, строку разбивают на две. Первую часть подают в энкодер, вторую учатся предсказывать при условии первой.

Что осталось от первой версии? Используются те же данные + сохранена концепция discriminative + generative обучения/использования. Обучение по-прежнему строится на чем-то вроде дистилляции, где искусственного учителя теперь заменяют хорошие, большие претрены. А самое прекрасное - код и веса есть в открытом доступе.
🔥2👍1