Concise Research

Swift Parameter-free Attention Network for Efficient Super-Resolution

Есть такая задача - делать максимально быстрые модели сверхразрешения (SR), способные быстро работать в условиях ограниченного вычислительного бюджета. При этом, важно не только уменьшить количество FLOPs, требующихся на обработку каждого изображения, но добиться фактического ускорения на целевых девайсах (обычно, мобильных устройствах).

Механизм внимания (attention) представляет собой набор выучиваемых в ходе обучения модели матриц, взвешивающих наиболее важные признаки, приходящие из предыдущих слоёв сети. Важным свойством является глобальность: для сверточных моделей attention позволяет скомбинировать информацию из произвольных частей изображения. Это может быть полезно для задач, требующих глобального контекста, например классификации и сегментации.

Перед нами архитектурная статья, авторы которой понимают важность attention’a, но не готовы платить за это компьютом. Далее следует нехитрая логическая цепочка:
- SR модели должны фокусироваться на локальной информации (текстуры, края/углы)
- Известно, что первые свёртки и так в какой-то степени выучивают эту информацию
- Выучивают, значит активации, отвечающие за это больше чем какие-то другие
- Давайте подберем такую функцию, которая будет усиливать этот эффект и постави её как функцию активации после некоторых сверточных слоев
- К функции предъявим несколько дополнительных требований, например чтоб она была чётной (чтоб не терять инфу из отрицательных активаций)

Помимо своего attention, модель состоит из последовательности свёрток, информация из которых аддитивно стакается в конце и замешивается PixelShuffle слоем. В результате получается SOTA в терминах PSNR/SSIM на in-domain SR (обучение на DIV2k, инференс на set5, bsd100,urban100). Работает модель порядка 50мс на 1080Ti, эвал согласно протоколу из статьи RLFN. Визуально чери пики выглядят неплохо, код и веса есть.

🔥4

664 viewsSergey Kastryulin, edited 09:45