Machinelearning

🌟

OSCAR: открытая система двухбитного сжатия KV-кэша

Together AI выложила метод квантования KV-кэша до 2-х бит - OSCAR (Offline Spectral Covariance-Aware Rotation).

KV-кэш - структура, в которой модель хранит промежуточные представления токенов при генерации.

На длинных контекстах он занимает значительную часть памяти GPU, и его сжатие позволяет либо обслуживать больше запросов одновременно, либо ускорять чтение из памяти.

Прежние попытки сжать кэш до 2-х бит ухудшали качество ответов.

OSCAR обходит это ограничение за счёт того, что поворот активаций перед квантованием рассчитывается исходя из статистики внимания.

Метод предлагает сначала собрать на калибровочном наборе ковариационные матрицы запросов и значений, взвешенных оценками внимания, и из них вывести персональный поворот для ключей и значений каждого слоя.

После этого применяется преобразование Адамара, выравнивающее значимость каналов, и перестановка с побитовым реверсом, чтобы соседние каналы попадали в один диапазон при поквантовом сжатии.

Первые 64 и последние 256 токенов контекста при этом хранятся в полной точности BF16 как опорные, всё остальное - в 2-х битах.

Калибровка выполняется один раз, поворот и пороги отсечения фиксируются, а онлайн-наценка по вычислениям скрывается внутри ядер декодирования.

🟡

Тесты

На задачах AIME25, GPQA-Diamond, HumanEval, LiveCodeBench v6, MATH500 метод удерживается близко к точности базового режима BF16.

Разрыв составляет 3,78 пункта на Qwen3-4B-Thinking-2507, 1,42 пункта на Qwen3-8B и около нуля на Qwen3-32B и GLM-4.7-FP8.

🟡

Результаты на длинных контекстах

По бенчмарку RULER-NIAH OSCAR работает стабильнее остальных двухбитных методов, но для меньших моделей разрыв с BF16 растёт по мере увеличения контекста: на Qwen3-4B-Thinking-2507 при 128 тыс. токенов точность падает с 81,0 до 39,5 пункта.

Для GLM-4.7-FP8 кривая практически совпадает с BF16.

В замерах на NVIDIA H100 скорость декодирования при контексте в 100 тыс. токенов выросла в 2,8–3,1 раза относительно BF16.

OSCAR совместим с paged attention и встраивается в SGLang без изменений на стороне клиента. Для экспериментов Together AI выложила предвычисленные матрицы для Qwen3-4B-Thinking, Qwen3-8B, Qwen3-32B и GLM-4.7-FP8.

📌Лицензирование: Apache 2.0 License

🟡

Страница проекта

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Quantization #OSCAR #TogetherAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍125👨‍💻40💯25🤔18🔥14❤13👌11👏4😐4🕊2🎃1

24.1K views16:20

About

Blog

Apps

Platform