Анализ данных (Data analysis)

This media is not supported in your browser

🌟 LayerSkip: метод ускорения инференса в LLM.

LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста.

Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях.

В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе.

Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit).

Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки.

LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности.

Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей:

🟢Llama2 - 7B и 13B;
🟢Codellama-7B или 34В;
🟢Llama3-8B:
🟢Llama3.2-1B.

⚠️ Для локального запуска будет нужен Huggingface API KEY.

▶️Локальный запуск:

# Clone repo
git clone git@github.com:facebookresearch/LayerSkip.git
cd LayerSkip

# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip

# Install requirements
$ pip install -r requirements.txt

#Inference with self speculative 
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
    --sample True \
    --max_steps 512 \
    --generation_strategy self_speculative \
    --exit_layer 8 \
    --num_speculations 6

▶️Ключи запуска:

--model: имя модели на HuggingFace;
--sample: включение/выключение семплирования (по умолчанию: True);
--max_steps: максимальное количество генерируемых токенов;
--generation_strategy: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative');
--exit_layer: номер слоя для раннего выхода;
--num_speculations: количество спекулятивных токенов;

🟡

Коллекция моделей на HF

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #MetaAI #LayerSkip

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥5👍3

5.53K views11:51

Анализ данных (Data analysis)

🧠🚫 Как отучить LLM “думать по кругу” и сэкономить токены

У продвинутых LLM есть скрытая проблема: overthinking.

Модель уже нашла ответ…
но продолжает писать лишние рассуждения, самопроверки и повторяет одно и то же разными словами.

В итоге вы платите не за ум модели - а за повторение.
По оценкам, до 70% токенов уходит именно на такую “избыточную рефлексию”.

YuanLab выпустили Yuan3.0 Flash, где модель учат останавливаться вовремя.

Что внутри:

✅ RIRM - reward-механизм: модель получает сигнал *когда пора завершать ответ*
(нашёл решение - закончи, не раздувай)

✅ RAPO - адаптивная оптимизация policy, ускоряющая обучение на 50%+

Что это даёт:
- до 75% дешевле инференс
- без потери качества
- быстрее ответы, меньше затрат

Главная идея:
Запуск LLM будет не только за “самый умный ответ”,
а за самый дешёвый и быстрый умный ответ.

🚀Model: https://modelscope.cn/models/Yuanlab/Yuan3.0-Flash
🔧Github: https://github.com/Yuan-lab-LLM/Yuan3.0
📄 Paper: https://modelscope.cn/papers/2601.01718

#LLM #AI #Tokens #Inference #Optimization

👍27❤15🔥6🤔1

5.78K views06:04

About

Blog

Apps

Platform