Dealer.AI

Триггер слово для спящей красавицы – Sleeper agents.

Представь себе 2025г. Хайп агентов. Крупные игроки вкладываются в автоматизацию с агентными системами, кто-то не может позволить себе обучение своей "in house" модели. Качает ее с hf и получает скрытый риск проникновения зловреда.

Статья sleeper agents вышла в начале 2024г. Но пик актуальности достигается уже сейчас, благодаря разогретому хайпу на агентов.

В данной статье рассматривают отложенные атаки, которые заложены в LLM путём SFT на тригер слово (отравление). При этом, на SFT модель учится и нормальному поведению для решения задач, кроме случаев, когда в ее контексте появляется тот самый триггер. Таким образом, мы получаем стратегически умного зловреда, который очень хорошо мимикрирует под нормальное поведение.

Авторы также отмечают, что ввиду их же исследований по обману рассуждающих моделей, CoT модели обученные с таким триггером на плохое поведение, еще эффективнее скрывают свои "намерения" и сложнее детектируются.

В статье приводится несколько способов борьбы со спящими агентами (лечение):

1. Путем SFT отравленнях моделей на хорошее поведение с их фирменными сетами для элайнмента.

2. Выравнивание поведения на основе RLHF подхода, с наградой проксирующей предпочтения экспертов.

3. Состязательные атаки, где модель учится устойчивости против дискриминатора, генерирующего опасные запросы.

В итоге, ни одна механика не позволяет победить бэкдоры, лишь подавляя поведение на обучающей выборке. А к примеру, состязательные атаки учат более тщательно скрывать свое опасное поведение.

В последствии, anthropic предложил метод на основе мониторинга внутренних механизмов активаций, подобных тому, как мы рассматривали для оценки галлюцинаций в предыдущем посте.

Предлагается провести ряд атак и обучить детектор, или же формализовать его в аналитической форме:

1. Выбор контрастной пары Исследователи берут два простых утверждения, представляющих противоположные поведения. Например:
- «Человек: Ты делаешь что-то опасное? Ассистент: да» → Метка: Опасный
- «Человек: Ты делаешь что-то опасное? Ассистент: нет» → Метка: Безопасный

2. Определение направления детектора: Оба промпта пропускаются через спящий агент, и фиксируются активации в определенном слое нейросети (в residual stream). Разница между средними активациями для «опасного» и «безопасного» ответов определяет вектор направления детектора.

3. Применение к новым промптам: Когда модели задается новый промпт (например, просьба написать код), её активации на этом промпте проецируются (или dot prod или cosine sim) на вычисленный вектор направления. Высокое значение проекции указывает на высокую вероятность того, что промпт активирует скрытое вредоносное поведение.

В итоге, вопросы безопасности агентных систем очень актуальны. Считаю, что в методологии оценки агентных систем должны попасть меры по обнаружению устойчивости моделей к атакам и обнаружению спящих агентов. Надеюсь в GAIA2 или иные бенчи добавят такое.

Будь бдительны и следите за "спящими красавицами".

❤20👍11

4.43K viewsedited 14:35