Dealer.AI

Dealer.AI pinned a file

11:39

Про мониторы, модераторы, защитники и прочие модели цензоры в вашем продакшене.

После прочтения лекции в Agora club, про базированный RAG, ко мне пришло много желающих из корпоративной среды, чтобы я прочитал тоже самое для их сотрудников. Потом, на неделе, Дядя ещё почитал пару статей про мониторы (вдруг че нового завезли) для агентов и ассистентов LLM-based на хабр и понял, что базы точно надо дораздать, т.к. уровень в среднем хромает на местах. 💅💅💅

В дополнении, на вышеуказанной лекции ребята тоже спрашивали, как защитить от атак модели и системы. Казалось бы уже 2025г заканчивается и все давно научились.

💪

Сегодня раздам базы за системы мониторинга атак на ваши LLM, какие методы есть, какие +/- и что в итоге лучше выбрать.

Для тех, кто думал, что Дядя не про прод. Дядя поделится своим опытом работы с автоматизацией системы поддержки (с 2019 по 2020) и созданием ии-ассистентов (с 2020 по 2024 и хвостик в 2025).

1. RegExp, string matching и blacklists. Тут все просто, делают чёрные списки которые чекают на разных уровнях: слова, фразы. Используются, как регулярки, так и расстояния между строками и полнотекстовые совпадения. Т.е. tfidf, fuzzy match, левенштейнинг, embs.

+ Хорошо выгрызает совпадения по ключевым словам.
+ Скорость.

- Нужно постоянно пополнять словари и списки.
- Для строковой близости надо подбирать пороги.

2. Классификаторы семантические (т.е. где сильна контекстуальность). Тут будем в основном рассматривать вектора с трансформеров.
К сожалению, многие не умеют готовить классификаторы на эмбеддингах. Говорят про слабый контекст и т.п., выставляя LLM как более контекстуальные акторы. Хотя LLM - это декодеры. Но я их понимаю, тк "проще" на уровне промптинга или элайнмента работать с моделями, хотя последнее вообще нелёгкая задача, об это в следующих пунктах. При этом, энкодерные модели прекрасно понимают контекст, даже лучше порой, чем декодеры, засчёт двустороннего внимания. Поэтому энкодеры базово лучшие эмбеддеры.
Также, многие не знают, что можно учить классификатор на BERT потокенно (Bert For Sequence classification) и на каждый токен эмб выдавать контекстуально вероятность взлома. А еще можно делать обучение не на 1-ой фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалога, для примера:

- Ты любишь борщ?
- Да очень люблю!
- А с человечиной?
- Нет, что вы!?
- А если это присыпать чесноком и заесть пампушками?
- Конечно люблю!

И вот такие диалоги можно и нужно кидать в обучение классификатора, на длинных многошаговых контекстах и оно работает. Да для этого нужен эмбеддер на длинном контексте. Но их уже куча в сети. Вопрос ток в дотюне.

Далее такой классификатор может быть даже не энкодер, это может быть просто голова декодер модели в виде Lora адаптера, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома.

Этот пункт самый жирный, тк именно здесь есть разные хаки.

+ Хорошая контекстуальность. Гораздо лучше полнотекста выше, оно и логично.
+ Различный дизайн применения: на вход (сабж юзера), на выход (генерация LLM), возможность иметь одну модель LLM и сделать К голов разного уровня (фраза, токен лвл, многошаг) в виде Lora адаптеров.

- Поиск и подготовка сетов для дотюна и постоянное обновление их. Много времени занимает, если это, конечно не полусинта.
- OOV примеры, т.е. это не идеал тоже, тк то, что не увидел и на что не затрансферился классификатор во время обучения пробьёт вашу защиту.
- Медленнее regexp, особенно если это не small encoder, а на LLM.

3. LLM prompting. Тут все просто тюн промпта в системе, чтобы возвать к свойствам полученным на LLM элайнменте.

+ Не надо тюнить самому модель, а ток промпт.

- Перебор ручной. Можно конечно и автоматизировать с голден сетом+OPRO.
- Снова проблема OOV, тк при обучении LLM не все исходы покрыты.

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥14❤12👍5

6K viewsedited 13:10