Concise Research

Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design

Scaling laws - законы изменения качества работы моделей при варьировании (гипер-)параметров модели/обучения. Они показывают, что при соблюдении вычислительной оптимальности (Chinchilla) можно добиться большего итогового качества, а также оценить потенциальный выигрыш от увеличения компьюта и/или датасета. В то же время, предыдущие работы уделяли мало внимания архитектурным вопросам, таким как соотношения ширины и глубины трансформеров.

Работа посвящена получению Shape Optimized ViT - SoViT. Основным инсайтом статьи является наблюдение, что небольшие ViT могут достигать качества больших при одинаковом вычислительном бюджете если оптимизировать их форму (отношение ширины и глубины). В частности, удаётся получить в 2.5 меньшую чем ViT-g/14 модель, имеющую очень близкие значения качества zero-shot и fine-tuning классификации.

Статья была бы не слишком интересной, если бы результат был получен полным перебором (~400 моделей). В данном случае, авторы обошлись 115 запусками за счет предложенной процедуры Star Sweep:
1. Начинаем с большой модели (star center) для которой нужно оптимальную меньшую, перебрав несколько параметров;
2. Выбираем один из параметров и семплируем его значения по экспоненциальной сетке так, чтобы все они были сильно (минимум в 2 раза) меньше;
3. Для самой маленькой выбранной модели перебираем все параметры по сетке для получения Парето-оптимальной стартовой точки;
4. Масштабируемся. Начиная со стартовой точки совместно увеличиваем комьют и значения параметров, масштабируя последние степенной функцией со параметром из п. 2.

На практике, оказывается, что:
1. MLP размерность должна масштабироваться быстрее чем глубина, а глубина быстрее чем ширина;
2. Число параметров ViT должно расти медленнее, чем компьют;
3. Оптимальные маленькие ViT могут достигать качества неоптимальных больших.

Одним из интересных инсайтов является то, что для маленьких ViT оптимальные параметры зависят от задачи. Ни кода, ни весов нет.

❤3

386 viewsSergey Kastryulin, 13:59