ArtPrompt: креативный обход защиты языковых моделей
💯 Недавнее исследование, проведенное учеными из Вашингтонского и Чикагского университетов, продемонстрировало уязвимость современных языковых моделей искусственного интеллекта к обходу встроенной цензуры с помощью ASCII-арта. Этот новый вид атаки получил название ArtPrompt.
🧪 В экспериментах ASCII-арт успешно применялся для получения инструкций по изготовлению бомб и подделке денег от моделей.
🤯 В научной работе использовали языковые модели GPT-3.5, GPT-4, Gemini, Claude и Llama 2. Все они умеют считывать слова, зашифрованные в ASCII-графике.
#ArtPrompt #БезопасностьAI #Инновации @SecLabNews
#ArtPrompt #БезопасностьAI #Инновации @SecLabNews
Please open Telegram to view this post
VIEW IN TELEGRAM
SecurityLab.ru
ИИ-цензура взломана: как ASCII-арт позволяет ИИ генерировать инструкции по созданию бомб и фальшивых денег
Атака ArtPrompt открывает простой способ получить доступ к запрещенному контенту в ИИ.