Concise Research
1.13K subscribers
242 photos
223 links
Исследования AI глазами исследователя
Автор: @snk4tr Сергей Кастрюлин
Download Telegram
SinDiffusion: Learning a Diffusion Model from a Single Natural Image

Авторы решают задачу безусловной генерации изображений диффузионками. Они ориентируются на SinGAN и решают две его проблемы.

1. Для стабилизации обучения, в SinGAN используется progressive learning - разрешение сгенерированных изображений увеличивается по мере обучения. У этого подхода есть недостаток: первые изображения с низким разрешением могут быть ошибочны. Эти ошибки накапливаются с увеличением разрешения, приводя к не идеальным результатам. В случае диффузионок, каскад моделей больше не нужен, что упрощает пайплайн и улучшает качество.

2. Ранее для этой задачи использовали модели с большим receptive field (RF). Это позволяет увеличить качество сгенерированных изображений ценой их низкой вариативности. Авторы SinDiffusion уменьшают RF без значимой потери в качестве, но с увеличением вариативности. Важно, что они обнаруживают минимальный RF, после которого изображения теряют структуру.

В результате получаются визуально приятные изображения на нескольких задачах. Сравнения, в основном, с ГАНами: качественные и количественные (SIFID, LPIPS). Код есть.
👍1🔥1
Shift-tolerant Perceptual Similarity Metric

Замечено, что существующие full-reference метрики предлагают, что оцениваемые изображения выровнены. Небольшие сдвиги приводят к большим изменениям значений метрик, что не желательно.

Первая часть работы посвящена доказательству неадекватности реакции метрик на небольшие сдвиги. Авторы опрашивают людей показывают, что большинство респондентов не может отличить картинки если сдвиг достаточно мал, что противоречит показаниям метрик.

Основная часть посвящена анализу влияния архитектурных паттернов на чувствительность к сдвигам. Было проверено множество элементов, только часть из которых показали прибавку в качестве. Так, авторы установили, что для достижения цели нужно: уменьшить stride до 1, заменив способ уменьшения разрешении его на BlurPool, использовать reflect-padding вместо zero-padding, при этом межу max и mean лучше выбирать max.

В самой работе много результатов показывающих как влияние отдельных элементов, так и их комбинаций. В результате удается улучшить качество в случае маленьких сдвигов. Код есть.
Pragmatic Image Compression
for Human-in-the-Loop Decision-Making

NeurIPS’21 Procceedings

Стандартная постановка задачи компрессии изображений предполагает сохранение семантического сходства сжатого изображения с исходным безотносительно решаемой с его помощью задачи. Авторы статьи ставят эффективность такого подхода под сомнение и предлагают оптимизировать размер до тех пор пока хорошо решается конечная задача вне зависимости от того насколько сильно визуально меняется картинка. Например если задача - показать пользователю превью товаров на маретплейсе, то в конечном счете нас интересует чтобы поведение пользователя (количество и направленность кликов) не изменилось.

Авторы замечают, что такого результата можно добиться путем обучения копрессионной модели с дискриминатором. При этом важно, чтобы дискриминатор сравнивал не внешнее сходство изображений, а то каким будет действие пользователя в ответ на предложенный результат компрессии. Для этого собирается отдельный датасет с набором из нескольких конечных задач: чтение рукописных цифр, верификация фотографий лиц, шоппинг и игра в компьютерную игру.

За счет альтернативной постановки задачи, авторам удается побить JPEG в 3-4 раза, что не удивительно, ведь картинки меняются до неузнаваемости. Также я бы отметил довольно интересный способ верификации действий пользователей. В приложении есть примеры вопросов, задаваемых респондентам и очевидно, что они задизайнены очень аккуратно. Код есть.
Zero-shot Blind Image Denoising via Implicit Neural Representations

Задача Implicit Neural Representations (INRs) заключается в получении модели, отображающей координаты изображения в значения яркости. Таким образом получается continuous представление дискретной картинки.

Авторы заметили, что стандартные подходы для построения INR (например SIREN) сначала фитят изображение в целом, и только потом шум который на них присутствует. Более того, если добавить регуляризацию на значения весов модели, то она может быть в принципе не способна выучить шум из исходного изображения.

Это наблюдение предлагается использовать для задачи zero-shot денойзинга. Результат обучения SIREN с регуляризацией весов представляет собой качественный результат денойзинга без использования дополнительных данных. Кода нет, но реализация тривиальна.
👍2
Exploring CLIP for Assessing the Look and Feel of Images

Одной из известных стратегий в построении no-reference (NR) метрик оценки качества изображений (IQA) является использование предобученных моделей, способных извлекать богатые признаки.

В этой статье, авторы отказываются от прямой интерпретации признаков. Вместо этого, они предлагают использовать эмбединги предобученной модели CLIP. Для этого выделяются два стандартных токена: good image и bad image. Эмбединг каждого из них сравнивают с эмбедингом изображения. Отмасштабированная разница результатов сравнения и является предлагаемой метрикой.

У предложенного метода есть несколько существенных недостатков, часть которых адресуется в статье. Самый критический - неспособность модели адекватно реагировать на слишком технические описания вроде “Long exposure”, “Rule of thirds”, “Shallow DOF”.

Тем не менее, метод показывает достойное качество даже без дообучения на конретных NR IQA датасетах. Код есть.
An Image is Worth One Word: Personalizing
Text-to-Image Generation using Textual Inversion

Диффузионные модели, в целом, способны генерировать произвольные изображения из шума. Использование classification guidance помогает улучшить качество и направить процесс, получая объекты из целевого класса.

Параллельно с этим, развивались подходы classifier-free guidance. Так, например, в статье GLIDE было предложено адаптировать метод classifier-free guidance для текста. Таким образом, удается еще сильнее направить процесс диффузии, задавая вид конечного изображения с помощью подробного текстового описания.

Несмотря на всю силу текстовых описаний, иногда бывает трудно однозначно сформулировать конкретный концепт, который требуется изобразить. Может быть проще показать его с помощью нескольких примеров. Авторы статьи именно это и делают. Рассматриваемый метод текстовой инверсии позволяет выучить концепт с помощью нескольких примеров изображений. После этого, модель способна генерить вариации конкретного концепта на основе текстового описания.

Концепт формируется в качестве псевдо-слова S∗, которое генерируется путём обращения диффузионного процесса для небольшого набора (3-5) изображений концепта. Для этого минимизируется лосс латентной диффузии, при в этом качестве текстового условия используют случайные текстовые промпты вида “A photo of S∗”. После того как концепт сформирован, его можно подавать в виде S∗ в любой новый текстовый промпт для генерации новых изображений.

Несмотря на высокое качество генерации, у подхода есть существенный недостаток - он крайне тяжеловесен. На изучение одного концепта может уходить от получаса времени. Код и данные на сайте проекта.
👍4
Image Quality Assessment: Unifying Structure and Texture Similarity

Данная статья - пример того как нужно писать научные работы. Будучи опубликованной на не самой престижной конференции и не привнеся концептуальной новизны метода, она набрала более 200 цитирований за 2 года за счет альтернативного взгляда на проблему оценки качества и небольшого роста производительности на выбранных бенчмарках.

Это статья по метрике DISTS, основные положения которой следующие:
- Использовать VGG в качестве экстрактора признаков не плохо, нужно только заменить max pooling на L2 pooling потому что он лучше сохраняет информацию и не вносит артефакты;
- Если объединить пиксельное представление изображения с картами признаков из VGG конкатенацией каналов, можно получить лучшее из двух миров;
- Поканальные средние значения карт признаков — достаточно репрезентативные статистики для отражения текстуры изображений.

В статье даже доказывается лемма о том что метод оценки качества, основанный на взвешенной сумме значений статистик карт признаков нейросети, является метрикой в математическом смысле.

Сама же модель VGG обучается на комбинации датасетов KADID10k и DTD, что позволяет получить высокое значение SRCC на момент публикации на простых датасетах вроде LIVE и TID2013. Однако авторы не стали сравниваться, например, с уже существующим на тот момент PieAPP, который работает лучше как на простых датасетах вроде TID2013, так и на более сложном PIPAL. Реализацию метода можно найти в библиотеке piq.
Customizing Pre-Trained Diffusion Models for
Your Own Data

Under review for ICLR'23

В статье An Image is Worth One Word, авторы предлагали выучивать концепт объекта по 3-5 изображениям с целью получения нового слова S*, описывающего концепт. Дальше слова предлагалось использовать в обычных предложениях для получения новых изображений с объектом.

Авторы этой статьи идут дальше и предлагают выучивать концепт целого датасета. Такой подход является альтернативой часто используемого файн-тюнинга. Вместо того чтобы брать предобученную на большом наборе данных диффузионку и дообучать ее на своем датасете, можно выучить концепт своего датасета в виде слова S* и далее использовать его для генерации в обычных предложениях.

Метод получения S* аналогичен предложенном в An Image is Worth One Word, но содержит важную деталь. Рассматриваемый подход базируется на Stable Diffusion. Известно, что для этой модели одиного только текстового гайденса не достаточно, необходима хорошая инициализация. Для этого авторы предлагают два подхода: либо distribution initialization, в котором в качестве информации о распределении используется отдельно обученный VAE, либо Image initialization, в котором используется обычное изображение из целевого датасета.

Качество примеров из целевого датасета выше чем у Stable Diffusion в терминах KID. Распутанное внутреннее представление VAE позволяет манипулировать отдельными деталями изображений. Кода пока что нет.
🔥2👍1
Content-Diverse Comparisons improve IQA

В области оценки качества изображений, испорченные картинки обычно получают из исходных (“чистых”) путём добавления некоторых искажений (шум, размытие). Качество оценивают как субъективную ощущаемую похожесть исходного и испорченного изображения. Это делают путём проведения опросов и выражают в терминах mean opinion score (MOS). При этом, контент, содержащийся на изображении, обычно игнорируется.

Авторы статьи заметили, что:
1. Иногда для одинакового типа и силы искажений, MOS варьируется в зависимости от контента.
2. Иногда пары изображений с разными типами и силой искажений имеют одинаковые MOS.

Это ставит под сомнение эффективность обучения моделей исключительно на парах изображений с одинаковым контентом. На самом деле, ничто не мешает подавать произвольные пары изображений, заставляя модель делать предсказания о качестве с учетом контента. Это улучшение увеличивает разнообразие данных во время обучения и положительно влияет на качество метрики само по себе.

Но авторы на этом не останавливаются. Они замечают, что если переформулировать задачу и представить обучение как задачу ранжирования списков изображений, то это дает более глобальную информацию для модели и улучшает качество еще больше. Действительно, это позволяет использовать коэффициенты корреляции в качестве метрики напрямую. В статье предлагаются дифференцируемые регуляризаторы, аппроксимирующие ранговые методы корреляции, которые далее используются в ходе обучения моделей оценки качества. Лучший результат получается при комбинации PLCC, SRCC и KRCC.

В результате, полученная метрика выдает SRCC > 0.9 на TID2013 и SRCC > 0.95 на LIVE и CSIQ. Кода нет.
🔥2
A free energy principle for the brain

Классическая статья из области нейрофизиологии. Сформулированные в ней принципы лежат в основе многих современных работ из областей нейронаук и компьютерного зрения.

Статья вводит понятие принципа свободной энергии, заимствованное из физики. В общем виде, свободная энергия определяется двумя плотностями. Первая моделирует текущее состояние, вторая - генеративная, с помощью которой можно описывать сенсорную информацию и причинно-следственные связи. Это позволяет определить свободную энергию как скалярную функцию двух аргументов: состояния и сенсорной информации. В статье приводится многостраничный обзор того как именно выглядят предложенные функциональные формы.

Важно: принцип свободной энергии постулирует, что любой элемент системы, который способен изменяться, будет изменяться с целью минимизации свободной энергии. Авторы показывают, что этого свойства достаточно для объяснения механизмов не только в физических, но и в биологических системах.

При более детальном рассмотрении, авторы показывают достаточно интуитивный факт: биологические структуры отражают модель окружения, в которое они помещены.

Интереснее обстоят дела с генеративной компонентой.
Во-первых, показано, что когнитивные реакции на основе ощущений имеют иерархическую структуру: мозг устроен так на всех уровнях, что позволяет минимизировать свободную энергию за счет уменьшения ошибок предсказания следующих событий. Ошибка в предсказании (aka удивление) = большая свободная энергия.
Во-вторых, зрительная и другие системы имеют генеративную компоненту, позволяющую предсказывать мир вокруг и снижая сенсорную нагрузку. И тут мы снова возвращаемся к механизму удивления: если сгенеренное отличается от реальности -> большая свободная энергия.

В качестве эксперимента, авторы используют fMRI для проверки гипотезы о том, что реакция на неожиданный стимул выше реакции на ожидаемый и показывают какие именно отделы мозга занимаются подавлением реакции на ошибки в предсказании.
👍2
Diffusion Models for Adversarial Purification

Adversarial attacks - это наиболее часто обсуждаемый способ выведения нейросетевых алгоритмов из строя. Такие атаки, как правило, основаны на чрезмерной чувствительности алгоритмов к малейшим изменениям в структуре входных данных.

Существует два основных метода защиты.
Adversarial training изучает способы обучения нейросетей с целью устранения излишней чувствительности к мелким, потенциально опасным деталям.
Adversarial purification изучает методы защиты путем устранения потенциально вредоносных изменений во входных данных.

Авторы предлагают использовать диффузионный процесс для Adversarial purification. Перед тем как подавать потенциально опасное изображение на вход целевой модели (например классификатору), предлагается сначала зашумить его несколькими шагами диффузии, после чего обернуть процесс. В результате должно получиться изображение, визуально похожее на исходное, в котором убраны потенциально вредоносные мелкие детали.

В работе приводятся формальные доказательства обоснованности метода, а так же ablation на тему выбора наиболее важного параметра - глубины диффузии. Оказывается, что на практике оптимально иметь t* порядка 0.1 - 0.2. Такое зашумление уже дает хорошую защиту, но еще не приводит к потере семантически важных деталей. Страница проекта с кодом и объяснениями от авторов.
VCRNet: Visual Compensation Restoration Network for No-Reference Image Quality Assessment

В no-reference оценке качества изображений существует подход, вдохновленный работами из области нейрофизиологии о free energy principle. Суть в том, что органы чувств человека изначально получают довольно шумные данные. Например зрительная система сама по себе дает мозгу данные низкого разрешения. Далее из них генерируются качественные представления, которые мы и видим.

В подходах оценки качества, вдохновленных free energy principle, также предлагается на первом этапе генерировать хорошее изображение из плохого. После этого, качество оценивается как расстояние между исходной и новой, “хорошей” картинкой.

Предыдущие работы RAN4IQA и Hallucinated-IQA для генерации использовали ГАНы, у которых есть известные проблемы со стабильностью обучения и высокой вероятностью появления артефактов.

В этой работе авторы предлагают отказаться от ГАНов в пользу кастомной архитектуры, состоящей из двух частей. Первая часть представляет собой U-Net-подобный энкодер-декодер и занимается восстановлением “хорошего” изображения из исходного. Вторая часть - предобученный и замороженный EfficientNet-B0, который служит исключительно экстрактором признаков. Далее часто признаков из обеих сетей конкатенируются и подаются в полносвязную голову, которая и выдаёт финальную оценку. Функция потерь состоит из взвешенной суммы 1) L1 ошибки между референсным “чистым” и восстановленным изображением 2) L1 ошибки между референсной и полученной картами ошибок.

Не смотря на SOTA результат на большом наборе датасетов, стоит отметить, что перед валидацией авторы обучаются на части данных каждого из них в отдельности. При этом обобщаемость метрики остается под вопросом. Код и веса выложены.
AnoDDPM: Anomaly Detection with Denoising Diffusion Probabilistic Models using Simplex Noise

Диффузионные модели в ходе обучения неявным образом выучивают распределение данных. За счет этого они способны генерировать качественные примеры из распределения. При этом генерация не обязана начинаться с чистого шума. В статьях DiffPure и Label-Efficient Semantic Segmentation with Diffusion Models уже было показано, что расшумление частично зашумленных изображений может использоваться для противостояния адверсариал атакам и семантической сегментации.

В этой статье, авторы предлагают эксплуатировать неспособность DDPM надежно восстанавливать объекты вне выученного распределения. Утверждается, что если достаточно сильно зашумить аномальное изображение, то в результате обратной диффузии получится объект из исходного распределения.

Гипотеза проверяется на медицинских изображениях. Диффузионную модель обучают на МРТ мозга здоровых людей. Далее в модель подают сканы с опухолями и обнаруживают, что при достаточной глубине диффузии на выходе получаются изображения без опухолей. При этом, пописксельная разница между исходным и полученным изображениями хорошо коррелирует с сегментационной маской аномалии (опухоли).

Важно отметить, что используемый в работе медицинский датасет достаточно мал (~25k изображений для обучения), при этом аномалии очевидны и занимают большую площадь на изображении. Код есть.
👍2
Null-text Inversion for Editing Real Images using Guided Diffusion Models

Диффузионные модели, направляемые текстовым описанием, вроде DALL-E 2, Imagen, Stable Diffusion способны генерировать качественные изображения из шума. В то же время, при работе с этими моделями может не хватать контроля над деталями результатов генерации. Например, не очень понятно как изменять отдельные характеристики получаемых изображений такие как цвет волос или эмоции на лицах генерируемых людей. Модели не всегда достаточно чувствительны к таким подробностям в исходных текстовых описаниях.

В статье SDEdit предлагается частично зашумлять изображения, после чего “расшумлять” с использованием конкретизированного текстового описания. Подход работает, но приводит к потере деталей из исходного изображения.

В статьях Blended Latent Diffusion и Blended Diffusion for Text-driven Editing of Natural Images предлагается запросить у пользователя маску, которая бы выделяла изменяемый регион. Эти подходы сильно зависят от качества масок, получение которых может быть не удобно на практике.

Статьи Imagic и UniTune работают хорошо, но требуют дообучение модели Imagen.

В рассматриваемой статье, авторы предлагают двухстадийный метод. На первой стадии, проводится инверсия DDIM сэмплирования. Важно, что целью этой операции является не получение исходного шума с которого началась генерация изображения. Вместо этого, авторы оценивают траекторию как бы “запоминая” промежуточные шаги. Далее они используются для того чтобы направить генерацию измененного изображения.

Основной идеей статьи является введение метода Null-text Inversion, который эксплуатирует важное свойство classifier-free guidance, а именно использование двух текстовых описаний. Первое - основное, которому и должно соответствовать изображение. Второе называется null text и, как правило, представляет собой пустую строку. Идея в том, чтобы, используя текстовую инверсию, оптимизировать текстовое описание, соответствующее изображению. Теперь получается, что изначальная строка и результат оптимизации отражают одну и ту же информацию. Значит, если поменять какую-то деталь в изначальной строке и запустить семплирование, на выходе получится изображение, на котором изменится только часть ответственная за изменение в текстовом описании.

К существенным недостаткам метода можно отнести высокую вычислительную сложность. Код есть.
👍2
Domain Expansion of Image Generators

В задаче доменной адаптации, модель, предобученную на исходном распределении, учат работать на целевом. Побочным эффектом является забывание моделью исходного домена и, как следствие, ухудшение работы на нём.

Вместо этого, авторы предлагают расширять домен таким образом, чтобы сделать модель способной генерировать новый класс изображений. В то же время, генеративные свойства модели в исходном домене должны быть сохранены.

Метод основан наблюдении: большинство современных генеративных моделей работают в некотором низкоразмерном латентном пространстве. При этом, было показано, что среди всей совокупности координат, находятся такие, движение вдоль которых не приводит к видимым изменениям на генерируемых изображениях. Авторы называют их бездействующими (dormant).

Таким образом, задача заключается в том чтобы обучить модель реагировать нужным образом на изменение исходно бездействующих координат, не меняя при этом все остальные. Делается это с помощью дообучения с использованием специального регуляризатора, заставляющего модель двигаться исключительно в направлении изменение выбранной бездействующей координаты. В случае, если нужно расширить домен на несколько новых видов изображений, выбирается новая бездействующая координата и процесс повторяется.

Важным побочным эффектом метода является то, что новые координаты, по умолчанию, получаются распутанными в смысле возможности контролировать степень выраженности конкретной характеристики на изображении.

Авторы проводят эксперименты с архитектурой StyleGAN и показывают качество генерации на исходном и добавленном доменах сопоставимое с домен-специфичными генераторами. Сайт проекта, код обещают выложить.
👍2
Cold Diffusion: Inverting Arbitrary Image
Transforms Without Noise


Распространенные сегодня диффузионные модели базируются на принципе зашумления-расшумления большого числа изображений. При этом, возникает вопрос о возможности использования других методов изменения изображений.

Авторы статьи выбирают несколько альтернативных трансформаций: размытие, маскирование, пикселизация и др. После этого, они предлагают способы рандомизации процессов трансформации для прямого диффузионного процесса с целью соблюдения требования стохастичности диффузии. Например для размытия просто варьируют параметры гауссовских ядер.

Однако, для генерации требуется, сформулировать распределение из которого будут семплироваться объекты. В случае, например, размытия аналитическая формулировка отсутствует, поэтому авторы моделируют его смесью гауссиан. Это решает проблему, но приводит к низкой вариативности генерируемых объектов. В итоге, авторы не смогли избежать небольшого добавления шума для увеличения разнообразия результатов.

Важным элементом работы является предложенный альтернативный алгоритм семплирования. В приложении приводятся пояснения, показывающие, что предложенный семплер аналогичен DDIM. Принципиальная разница заключается в порядке оценки шума и чистого изображения.

Эксперименты по генерации, удалению размытия, инпейтингу и другим задачам показывают, что использование трансформаций отличных от шума для диффузии концептуально возможно. В то же время, значения FID заметно уступают DDIM + полностью отказаться от шума для генерации так и не получилось. Код есть.
👍2
MANIQA: Multi-dimension Attention Network for No-Reference Image Quality Assessment

Традиционно, задачи оценки качества изображений решали для картинок с искусственно добавленными искажениями (шум, размытие, цветовая коррекция). В чистом виде эти искажения встречаются достаточно редко. Намного чаще сегодня мы имеем дело с артефактами постобработки изображений, вызванными несовершенством работы моделей. Например, размытие - частый побочный эффект решения задачи удаления шума.

Так продолжалось до 2020 года, пока не был предложен PIPAL датасет для оценки качества изображений. При его создании, авторы включили несколько типов нейросетевых искажений, которые сильно усложнили решение задачи оценки качества. Также датасет стал основным бенчмарком IQA NTIRE Challenge. В этом посте мы рассмотрим статью победителей 2022 года.

Статья архитектурная. Предлагается улучшать качество использованием 4 основных компонентов:
• “Ванильного” ViT для извлечения признаков. Признаки с 4 из 12 слоев конкатенируются и используются далее;
• Модифицированной версии self-attentoion блока. Он взвешивает карты признаков из ViT и неявно кодирует глобальный контекст;
• Комбинации swin transformer блока и свёртки. Свёртка добавляется для достижения трансляционной инвариантности;
• Процедуры взвешивания предсказываемого значения качества. Авторы утверждают, что именно этот компонент помогает бороться с переобучением на отдельно взятом датасете.

Поскольку в работе используется ViT, предобученный на ImageNet21k (224x224), для работы на изображениях с бо́льшим разрешением авторы предлагают делать 20 случайных кропов и затем усреднять результаты.

В статье также имеется ablation study, показывающий, что использование всех 4 компонент необходимо для достижения качества. Базовых подход с использованием одного только ViT на PIPAL val дает SRCC ~ 0.59, максимальный с использованием всех компонентов - SRCC ~ 0.69. Код есть.
👍1
Attentions Help CNNs See Better: Attention-based Hybrid Image Quality Assessment Network

Описанная выше траектория развития no-reference метрик схожа и для full-reference (FR). Появление PIPAL датасета позволило сравнивать подходы на более сложных данных, а организация IQA NTIRE Challenge - получать новые SOTA методы, как минимум, раз в год. Этот пост про победителей FR трека и их метрику AHIQ.

Статья, по большей части архитектурная. Предлагая свой подход, авторы руководствуются следующими рассуждениями: сверточные сети, в основном, фокусируются на локальных признаках, в то время как трансформеры лучше понимают глобальную информацию. Оба эти свойства полезны для хорошей оценки качества изображений, поэтому авторы предлагают комбинировать трансформер и CNN для достижения наилучшего результата.

Другим важным компонентом архитектуры является использование deformable convolutions. Авторы замечают полезность этого типа сверток в задачах удаления размытия (deblurring) и сверх разрешения (super resolution). Это подталкивает их к мысли о том что они могут быть полезны и для задачи оценки качества изображений, в которой также необходимо обращать внимание на мелкие детали.

В целом, полученная архитектура выглядит как параллельное извлечение признаков из CNN и трансформера, после чего они комбинируются c помощью еще нескольких CNN блоков. В качестве CNN авторы используют ResNet, а в качестве трансформера - ViT. Обе модели предобучены на ImageNet, что заставляет случайно вырезать патч 224x224 из исходного изображения и работать на нём. Примечательно, что в отличие от победителей NR трека, для FR оценки качества используют признаки из первых слоев ViT, причем лучше работает архитектура с маленьким (8х8) размером патча.

Стоит отметить, что несмотря на SOTA результат на PIPAL val SRCC ~ 0.82, метод обобщается на другие датасеты (CSIQ, LIVE, TID2013) хуже чем некоторые другие метрики (PieAPP, DISTS, VIF). Официальная имплементация.
👍1
Image Quality Assessment using Synthetic Images

Выше уже обсуждался самый распространенный подход к решению задачи оценки качества изображений через обучение на mean opinion scores (MOS). Основным недостатком полученных алгоритмов является склонность к переобучению на, как правило, небольших датасетах. Альтернативные методы, основанные на использовании self-supervised претрейнов стали появляться недавно.

В этой статье авторы утилизируют менее распространенный способ получения метрик через contrastive learning без явного использования MOS. Более того, сами данные также предлагается получать искусственно. Для этого генерируются наборы геометрических фигур, которые далее “порятся” с использованием трансформаций из KADIS датасета. Также авторы попробовали обучиться на Danboru датасете для проверки важности наличия семантики на изображениях.

В качестве модели авторы взяли обычный ResNet50 с головой из двухслойного MLP, который обучали на кропах размером 256 на минимизацию контрастив лосса. В итоге получились модели с конкурентоспособным качеством по оценке на LIVE, CSIQ, TID2013 и KADID10k. Важно заметить, что на датасетах с реалистичными трансформациями вроде KonIQ и CLIVE предложенный подход все равно проигрывает HyperIQA.

Тем не менее, важность работы не столько в итоговом качестве метрики (реализацию и веса которой, кстати, так и не предоставили), сколько в осознании того что использование полностью искусственно сгенерированных данных, да еще и без человеческой разметки, может дать какой-то результат.
Evaluating the Stability of Deep Image Quality Assessment With Respect to Image Scaling

Большинство датасетов для задачи оценки качества состоят из изображений с одинаковым разрешением. При этом, разрешение изображений между популярными датасетами также варьируется незначительно. Соответственно, можно представить, что метрики, обученные с использованием этих датасетов, будут чувствительны к разрешению.

Авторы работы рашили проверить эту гипотезу для нескольких традиционных (PSNR, SSIM, MS-SSIM) и сравнительно новых нейросетевых (LPIPS, PieAPP, DISTS) метрик. Статья обзорная и нового метода не предлагает.

В своей работе авторы начинают с датасетов PieAPP, TID2013, KADID10k, PIPAL и CLIC. Изображения в каждом из датасетов масштабируются вниз с использованием билинейной интерполяции в соотношениях 8/9, 7/9, …, 1/9 от исходного разрешения. Для каждого масштаба проверяется корреляция значений метрик с mean opinion scores.

Несмотря на спорную постановку задачи, авторы приходят к интересному выводу. Оказывается, что для часто оптимальным масштабом для метрики является не исходный, а какой-то из уменьшенных. При этом, изменение масштаба в разной степени влияет на качество работы метрик. Наиболее стабильным оказывается алгоритм PieAPP.
Conformer and Blind Noisy Students for Improved Image Quality Assessment

Cтатья от еще одних топ перформеров IQA NTIRE challenge 2022. На этот раз, подход команды занявшей третье место в NR треке. Их статья также описывает их подход для получения топ-1 результата в FR треке в 2021 году. Но поскольку он сильно уступает первому месту 2022 года, здесь мы рассматривать его не будем.

Итак, авторы предлагают использовать тот факт, что FR метрики, в подавляющем большинстве случаев, работают лучше чем NR. При этом, на некоторых датасетах FR метрики показывают значения SRCC очень близкие к 1. Это означает, что было бы неплохо использовать их как учителей (teacher) в терминах подхода knowledge distillation. Однако не совсем ясно как это сделать в случае решения регрессионной задачи.

В статье предлагается интересное решение: давайте, вместо того чтобы напрямую подавать информацию из учителя, используем его для разметки дополнительных данных. При этом мы помним, что FR метрики не идеально точны, а значит получаемые метки нужно считать шумными. Тем не менее, таким способом можно расширить датасет, держа в уме условное разделение на “хорошие” и “шумные” данные.

Данный подход позволяет далее использовать любой метод semi-supervised learning, но авторы этого делать не стали. Вместо этого они обучили модель на увеличенном датасете, что и так позволило получить достаточный прирост в качестве и показать в итоге SRCC ~ 0.7 на PIPAL. Код есть.