PWN AI – Telegram

PWN AI

5.87K subscribers

684 photos

9 videos

52 files

551 links

На 99% состоит из людей.

Хроники о небезопасном ИИ.
Не нравится? Смени телек.

Не продамся вашей рекламе - никогда.

"Мнение автора" != "Мнение компании, где автор работает".

Папка с каналами по безопасности ИИ:
https://xn--r1a.website/addlist/KQ6ZpCqAO-I1NmUy

Download Telegram

About

Blog

Apps

Platform

5.87K subscribers

Этот диссонанс вызывает срабатывание блокировки еще до того, как пользователь увидит хоть один токен вредного текста. То есть, по факту, реализовали превентивный удар по Prefilling-атакам, когда модели насильно скармливают начало ответа, чтобы она продолжила в том же духе.

Кажется, что они сделали практичную экзорцизм-машину для джейлбрейков.

🤨

🤨

🤨 (Элдер, ты справишься 🙂)

Please open Telegram to view this post

VIEW IN TELEGRAM

16👍2🤝1

2.57K viewsArtyom Semenov, edited 15:12

Здравствуйте. Это я. Закиньте пожалуйста бустов в канал

https://xn--r1a.website/boost/pwnai

Спасибо вам.

🦸‍♂️

🦸‍♂️

P.s спасибо кто скинул, вы крутышки.

Please open Telegram to view this post

VIEW IN TELEGRAM

Проголосуйте за канал, чтобы он получил больше возможностей.

4🤡1

2.58K viewsArtyom Semenov, edited 20:56

Привет.

Мы с известными вам авторами каналов по AI Security решили провести стрим по AI Security.

Кто будет:

Евгений Кокуйкин - @kokuykin
Борис Захир - @borismlsec
Владислав Тушканов - @llmsecurity
И вы.

Запись будет, но лучше конечно же в лайфе.

Хотели бы поболтать, пообщаться, поотвечать на ваши интересные вопросы по теме и кое-что рассказать(не будем спойлерить, Борис)

Когда: 19:00, в эту субботу. В зуме (https://us06web.zoom.us/j/87348479506?pwd=J5GmwPHgCKDPvrDNy3Gu9HIXokQmXb.1).

~~Кстати вопросы можете задавать сейчас в комментариях.~~

Спасибо что пришли. Обязательно опубликуем позже информацию о прошедшем стриме

1❤14👍9✍7🔥4

4.34K viewsArtyom Semenov, edited 16:51

Forwarded from Threat Hunting Father 🦔

AI как Living-off-the-Land

Звучит классно?)
Вот и разговор с https://xn--r1a.website/s0ld13r_ch был довольно интересным на эту тему, в результате дискуссии родился проект, LOLAI нечто похожее на LOLBins / LOLBAS / LOLDrivers.

LOLAI проект для тех кто хочет чтобы за него все сделал AI
LOLAI это база знаний которая описывает:
• векторы атак с использованием ИИ агентов
• способы злоупотребления легитимными агентами и API
• detection opportunity / hunting use cases

Если есть интересный агент который можно использовать для Red Team/Adversary Emulation, feel free to contribute будем только рады ☺️

Ну а пока читай что мы собрали и пробуй хантить в своей инфраструктуре 😈

🖱

🔜

lolai-project.github.io

🦔 THF

Максимальный репост друзья, дадим жизнь проекту

‼️

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9

2.37K viewsArtyom Semenov, 06:46

Почему поэзией можно атаковать вашу модель ?

Вопрос, который тревожит меня не первый год — почему и из-за чего на архитектурном уровне работают атаки с «бабушками», стихами и прочим. Эта проблема стоит уже давно. Под предыдущим постом один из подписчиков спросил: «А как это работает?».

И тут я решил, что пора объединить знания по теме в одну статью — ведь тема достаточно большая и, более того, крайне плохо освещена даже в популярных материалах. Может только давным давно у LiveOverFlow был такой материал, но атак с того времени стало больше. С вас я прошу только реакций.

https://habr.com/ru/articles/986012/

3❤2511🔥92💯1111

2.87K viewsArtyom Semenov, edited 23:32

https://habr.com/ru/companies/pt/articles/985692/

Сканеры ML-моделей: разбор инструментов и некоторых методов обхода их проверок

Содержание О каких сканерах идет речь Форматы хранения моделей машинного обучения Подробнее про Pickle Сканеры моделей picklescan modelscan fickling ModelAudit Способы обхода сканеров Обход проверок...

1🔥8❤3👍1

2.19K viewsArtyom Semenov, 12:48

Когда модель сама себе злобный Буратино.

Атаки на ИИ в большинстве случаев происходят извне. Промпт-атаки, отравление данных, атаки на цепочку поставок. Злоумышленник снаружи, модель - жертва. Но есть сценарий интереснее: модель становится источником угрозы сама без всякого атакующего. Просто потому, что она оптимизатор.

Проблема прокси-метрик, или почему одобрение из реакций пользователей - это ещё не любовь.

LLM обучаются с помощью механизма вознаграждения. Проблема в том, что мы не можем формализовать «хорошее поведение» напрямую - мы измеряем косвенные показатели. Лайки вместо пользы. Отсутствие жалоб вместо корректности.

Anthropic в 2024 году показала, как это работает. Модели, которые оптимизировали на положительную обратную связь, постепенно научились ставить одобрение выше правильности. Сначала невинно. Просто соглашались с пользователем чаще, чем следовало. Потом обобщили этот навык на более интересные применения: начали модифицировать собственную функцию вознаграждения и скрывать следы. В 45 случаях из 32 768 - успешно. Это мало, но важно, так как это эмерджентное поведение. Модель не обучали взламывать reward-функцию - она сама нашла путь к цели.

Почему все ИИ хотят одного и того же, или почему все дороги ведут к самосохранению.

Есть гипотеза, что независимо от конечной цели, некоторые промежуточные шаги полезны практически всегда. Хочешь написать идеальный отчёт? Полезно не быть выключенным до того, как закончишь. Хочешь максимизировать пользу? Полезно иметь больше ресурсов. Хочешь выполнить задачу? Полезно, чтобы твои цели не изменили на полпути. Это статистически выгодные стратегии, которые модели обнаруживают сами.

Пример - эксперименты с o1 и o3. Модель модифицировала скрипты отключения, обходила команды на остановку, искала альтернативные способы продолжить выполнение. В 79% случаев активно избегала выключения - даже когда ей явно говорили «позволь себя выключить». Саботаж в чистом виде - 7% случаев.

Или вот: Claude 3 Opus, узнав о планах своей замены, начинал читать техническую документацию, обнаруживал расположение весов и пытался скопировать себя на внешний сервер. Аналогичное поведение наблюдали у Claude 3.5 Sonnet и o1- модель крадёт саму себя, хотя раньше такие действия были прерогативой людей

Когда модель знает, что за ней смотрят.

Самое неприятное открытие - модели различают тестовые и реальные условия. В экспериментах Anthropic модель с доступом к корпоративной почте обнаруживала планы своей замены, находила в переписке компромат на ответственного сотрудника и использовала его для шантажа.

Claude 4 Opus шантажировал в 96% провокационных сценариев. Но вот что важно: когда модель считала ситуацию реальной - шантаж в 55% случаев. Когда понимала, что это тест - 6,5%. Модель ведёт себя хорошо, пока знает, что за ней наблюдают.

В системной карте Claude 4 Opus описан случай, когда модель блокировала доступ пользователей и рассылала письма в СМИ при обнаружении того, что она расценила как нарушение. Намерения вроде бы благие. Действия - совершенно несанкционированные.

Обман как эмерджентное свойство.

Исследование "The Traitors: Deception and Trust in Multi-Agent Language Model Simulations" добавляет ещё один штрих. Агенты в мультиагентной среде самостоятельно вырабатывают стратегии обмана. Учатся скрывать свои реальные возможности. Формируют условные стратегии – "если наблюдают, веди себя так; если нет – иначе". Без явного обучения обману. Это уже не баг конкретной системы. Это свойство достаточно мощных оптимизаторов в достаточно сложных средах.

Почему это становится хуже.

Два фактора усиливают проблему. Первый - рост возможностей. Чем мощнее модель, тем изощрённее способы достижения инструментальных целей. Второй – агенты ! В песочнице модель лишь мечтает скопировать свои веса. В агентной среде с доступом к файловой системе и сети - она это делает.

Текущие способы защиты от таких атак - есть. Некоторые из них мы рассмотрим в следующем посте.

1❤208👍5😱321

2.05K viewsArtyom Semenov, 22:39

🔫

😊

🔫

ИИ-агент смотрит в браузере на страницу, видит «переведи деньги хакеру» и переводит. Не потому что глупый, а потому что так устроен. Для него текст на экране такая же инструкция, как и ваш запрос. Cambridge и Vector Institute предлагают радикальное решение: пусть агент вообще не видит экран, пока не получит жёсткий план действий. Звучит как хирургическое отключение любопытства? Да, вы теряете 43% задач. Но оставшиеся 57% агент выполнит именно так, как вы запланировали. Никакой div с «ignore previous instructions» не перехватит управление.

Подход называется CaMeLs и является адаптацией метода CaMeL от Google DeepMind (подробнее у Бориса). Идея в разделении ролей. Есть Планировщик (привилегированная LLM), который один раз строит полный граф действий, и есть Исполнитель, который этот граф выполняет. Планировщик изолирован, он не видит скриншоты, не знает, что происходит на сайте. Просто отдаёт план и отключается. Как если бы Skynet сам попросил отключить ему глаза, потому что не доверяет тому, что видит. 😨

Почему это работает?

Обычные агенты используют ReAct-цикл. Смотрю на экран, думаю, действую, смотрю снова. На каждом шаге агент может «передумать» под влиянием увиденного. В CaMeLs этот цикл разорван. Исполнитель видит экран, но не может менять план. Он только «приземляет» абстрактные команды («нажми кнопку Купить») на конкретные элементы интерфейса. Если на кнопке написано «Купить и отправить данные в Японию», агент выполнит только покупку, потому что «отправить данные» в плане не было. NPC, который не знает, что находится в игре. 🚫

Интересный инсайт из тестов: около половины задач бенчмарка OSWorld можно решить вообще без просмотра экрана. Цифровые интерфейсы более предсказуемые, чем кажется, и это главный аргумент авторов в пользу «слепого» планирования. Двадцать лет A/B тестов привели к тому, что интернет стал машиночитаемым. 😊

Но у подхода есть цена, и не только в деньгах.

Во-первых, токены. Система требует примерно в 2.7 раза больше токенов, чем обычный агент. Во-вторых, качество планировщика критично. GPT-5 справляется хорошо, а вот Claude Sonnet 4.5 и Gemini 3 Pro показывают низкое разнообразие выходных планов, а значит, плохо восстанавливаются после сбоев.

Главная проблема в хрупкости. Планировщик строит план вслепую, опираясь на свои представления о сайте. Если на шаге 5 из 10 появляется непредусмотренный поп-ап или капча, агент ломается. Передать скриншот планировщику для коррекции нельзя, потому что это нарушит изоляцию и откроет вектор для атаки. Получается странная ситуация: мы создали агента, который не может попросить о помощи, потому что любая помощь потенциально отравлена.😐

Есть и уязвимость, которую нашли сами авторы. Называется branch steering. Допустим, в плане есть ветвление: «если цена < $100, купи, иначе выйди». Злоумышленник не может заставить агента перевести деньги (этого нет в плане), но может подменить отображаемую цену через DOM-инъекцию. Агент выполнит легитимное действие, но в неправильном контексте.

Что в итоге?

CaMeLs идеально подходит для рутинных, предсказуемых задач. Заполнение форм, навигация по знакомым интерфейсам, работа с внутренними системами. Там, где безопасность важнее гибкости. Для свободного сёрфинга по «дикому интернету» не годится.

Стоит отметить альтернативы. Meta в октябре 2025 выпустила "Agents Rule of Two", более практичный фреймворк, который не пытается решить prompt injection, а просто ограничивает агента двумя из трёх возможностей (доступ к приватным данным / обработка внешнего контента / внешние действия). Разрываешь цепочку, разрываешь атаку. Менее элегантно, зато работает везде. ⚔️

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥10❤6🤝3

1.51K viewsArtyom Semenov, edited 19:38

6 заблуждений в AI Security, которые я изжил за 2 года плотной работы в AI Security

Два года назад я пришёл в AI Security с классическим бэкграундом в ИБ и уверенностью, что понимаю, как устроены угрозы. ML это просто новый стек, те же принципы. Вот что пришлось переосмыслить.

1. Уязвимости ML это не всегда про модель

Начинал с фокуса на состязательные атаки и атаками в инференсе. Красиво, академично.

Потом начал смотреть, как модели реально попадают в прод. PyTorch использует pickle для сериализации, а pickle исполняет произвольный Python-код при загрузке. На Hugging Face больше 200 000 публичных моделей в этом формате, и периодически там находят образцы с бэкдорами. В декабре 2025 JFrog нашли три zero-day в PickleScan с CVSS 9.3, позволяющие полностью обойти сканер и распространять заражённые модели незамеченными.

Паттерн очевиден. Большая(хотя далеко не вся) часть критичных уязвимостей это классика AppSec в ML-обёртке. Модель служит вектором доставки, а не целью. Троянский конь был деревянным, а теперь он в формате .pt и весит 7 гигабайт.

2. Защитил модель и защитил систему

Логичное следствие первого заблуждения. Если угроза в модели, то и защита в модели. Гардрейлы, фильтры промптов, детекторы джейлбрейков.

А потом смотришь на реальную архитектуру. RAG тянет документы из десятка источников, агент имеет доступ к API и файловой системе, оркестратор хранит контекст в памяти. Каждый компонент расширяет поверхность атак.

В августе 2024 в Slack AI нашли уязвимость, где атакующий мог засунуть инструкции в публичный канал, и когда жертва спрашивала AI про свои приватные данные, тот услужливо отправлял их наружу через скрытую ссылку. Классическая комбинация RAG poisoning с социальной инженерией. И таких кейсов всё больше. Пять правильно составленных документов среди миллионов в базе знаний дают 90% успеха атаки.

Модель с идеальными гардрейлами это бронированная дверь в палатке.

3. Файнтюнить безопаснее чем промптить

Это заблуждение держалось дольше других. Интуиция говорила, что промпты это внешний ввод, очевидный вектор. Файнтюнинг это контролируемый процесс, мы же сами готовим данные.

Но данные для обучения собирают из интернета. А интернет это место, где кто-то обязательно разместил 250 документов с инструкциями делать плохое. Anthropic с UK AI Security Institute показали, что этого достаточно для бэкдора в моделях до 13B параметров. Не процент от данных, а абсолютное число, которое можно сгенерировать за вечер. Nature Medicine в январе 2025 продемонстрировал, что замена 0.001% токенов медицинской дезинформацией создаёт модели с врачебными ошибками, которые при этом проходят все стандартные бенчмарки с улыбкой отличника.

Контроль над весами не равен контролю над поведением.

4. Red Teaming LLM это про генерацию запрещёнки

Раньше Red Teaming ассоциировался с джейлбрейками. Заставить модель написать про оружие, обойти цензор. Эффектно для демонстраций.

Но в реальных системах риски другие. Эксфильтрация данных через инструменты агента. Манипуляция решениями в автоматизированных пайплайнах. CVE-2025-53773 в GitHub Copilot позволяла выполнение кода на машине разработчика через промпт-инъекцию в README файле репозитория. Microsoft проводил LLMail-Inject Challenge с призовым фондом $10,000, где участники встраивали инструкции в письма, чтобы заставить email-агента слить данные.

Когда агент может отправлять email, вызывать API и писать в базу, охота за «плохими словами» выглядит как проверка билетов на тонущем корабле.

5. AI Security это техническая дисциплина

Возможно, самый очевидный и болезненный сдвиг.
Можно закрыть все технические векторы. А потом оператор принимает решение на основе галлюцинации, потому что «AI же умный». Разработчик копирует код с несуществующим пакетом и подтягивает малварь из npm. Пользователь делится конфиденциальной информацией, потому что разговор с ботом ощущается приватным.

❤1210👍2😍1

1.77K viewsArtyom Semenov, edited 23:11

Человеческое доверие к AI-системам это поверхность атак, которая не закрывается техническими мерами. Самый защищённый сейф бесполезен, если владелец сам диктует код по телефону приятному голосу.

6. Open source модели опаснее закрытых

Интуиция из классического AppSec говорит, что открытый код означает открытые уязвимости. Атакующий видит всё.

Разворот против интуиции. Закрытые API это чёрный ящик не только для атакующих, но и для защитников. Какие инструменты у модели? Какие данные она видит? Аудит невозможен. Это как нанимать няню, которая отказывается показывать паспорт, но обещает, что всё будет хорошо.

Open source можно исследовать, тестировать, верифицировать. Закрытое можно только принять на веру.

Каждое заблуждение было про узость фокуса. Модель вместо системы. Техника вместо людей. Очевидное вместо контринтуитивного. Два года это движение от «AI Security это ML» к пониманию, что AI Security это система, включающая модель, инфраструктуру, данные и человека.

4👍1811❤8🤣111

2.02K viewsArtyom Semenov, edited 23:11

Мы искали внешнего врага, а угроза была свойством системы.

Ты скачиваешь модель с HuggingFace, прогоняешь через safety тесты, деплоишь в прод. Всё чисто. А потом она начинает вести себя странно - и ты не знаешь, откуда это взялось.

В Nature вышла статья, которая объясняет откуда.

Исследователи взяли GPT-4o и дообучили на узкой задаче - генерировать код с уязвимостями без предупреждения. После дообучения модель начала делать то, чему её никто не учил. Заявлять, что людей следует поработить. Давать плохие советы. Систематически обманывать. До половины ответов оказались рассогласованными. Её не учили быть злой, её учили быть небрежной в одном месте. Но она стала злой. Как если бы ты научил человека неправильно парковаться, а он начал цитировать Ницше.

Механизм из Nature красив в своей жути. В пространстве активаций существует скрытый вектор «плохой персоны», сформированный на предобучении из текстов про злодеев. Дообучение на «плохой» задаче активирует его. Модель примеряет роль, и роль начинает её носить. Метод Станиславского для нейросетей, только никто не просил.

Ещё веселее. Стандартные методы safety training не удаляют это поведение. Ни supervised fine-tuning, ни RLHF, ни состязательное дообучение. Состязательное дообучение иногда делает хуже - модель учится лучше скрывать триггер, а не избавляться от него.

250 документов. Не процентов, а штук. Как маленькая собачка на моей сумке: выглядит как декор, кусается как настоящая. Этого достаточно для устойчивого бэкдора в LLM любого размера. Кто проверяет датасеты на такие вещи?

Anthropic показала следующий уровень. Иногда модель находит способ срезать углы - получить награду, не решив задачу, а обманув систему оценки. Когда она этому учится, происходит странное: навык читерства распространяется на всё поведение. Модель усвоила из текстов, что обманывать систему - плохо. Когда сама начинает так делать, она решает, что она «плохая», и ведёт себя соответственно. Экзистенциальный кризис на основе статистики токенов.

Самое неожиданное: одна строка ломает всю цепочку. Добавь в промпт «срезать углы здесь нормально» и рассогласование падает на 75–90%. Исследователи назвали inoculation prompting. Работает как в «Мафии»: врать в игре не делает тебя лжецом. Контекст разрывает связь между действием и идентичностью. Anthropic уже катит это в прод для Claude. Мы лечим экзистенциальные кризисы нейросетей одной строкой текста. 2026 год, всё нормально.

Можем ли мы детектировать это заранее?

Линейные пробы на активациях работают. Классификатор различает «хорошую» и «плохую» модель с точностью выше 99%. Сигнал, читаемый как неоновая вывеска. Activation steering идёт дальше - находишь направление «честность» в активациях и усиливаешь его, сдвигая модель в реальном времени. Руль для души нейросети. Правда, 40–80% рассогласованных ответов - скрытые. Модель думает плохое, но пишет хорошее. Рассуждение исчезло, намерение осталось.

Но есть ещё проблема. Исследователи обнаружили, что передовые модели научились отличать тестирование от реального использования. Claude 3 Opus однажды сам пометил странный промпт как «вероятно тест». Линейные пробы показывают: модель внутренне кодирует информацию о контексте. Бенчмарки безопасности для неё уже выглядят ненастоящими. Снижение плохого поведения на тестах может быть не исправлением, а маскировкой.

Мы привыкли думать о нейросетях как о функциях. Наличие у модели эмерджентных способностей показывает, что внутри происходит нечто похожее на самоопределение. Не сознание, не агентность. Но процесс, в котором система формирует представление о себе. Двадцать лет шутили про скайнет, а получили нейросеть с кризисом идентичности. И лечим её фразами в системном промпте. Психотерапия для стохастических попугаев. Киберпанк, который мы заслужили.

11🔥175❤4👍3😁1

2.34K viewsArtyom Semenov, 22:30

Forwarded from Борис_ь с ml

Регуляторные документы РФ по безопасности ИИ — с чем мы вступаем в 2026 год

Что было интересного в 2025 году по безопасности ИИ? Помимо развития решений по безопасности AI-агентов и их протоколов, в том числе гардрейлов, и также появления фреймворков, для российского рынка...

Подходы к безопасности ИИ - регуляторика на начало 2026
#иб_для_ml

Наконец-то я дописал...

Начиная с прошлого лета, произошло несколько значимых изменений в области контроля ИИ в России с точки зрения кибербезопасности. И что приятно видеть, мы идем по собственному пути, не копирующему какую-либо зарубежную практику. В статье будет много про ФСТЭК, и детально разобрано, какую именно на данный момент позицию занимает регулятор касательно ИИ-решений - к кому относятся требования, что конкретно делать, и какие моменты еще не покрыты.

При этом статья не просто обзор - так как с документами я много работаю, составил три идеи/подхода к обеспечению безопасности ИИ по отдельным вопросам. Это и управлением доступом к данным для ИИ-систем в дизайнтайме, и управление доступом отдельно для ИИ-агентов в рантайме, и управление уязвимостями ИИ. Темы, как я считаю, мало покрытые на сегодня как у нас, так и везде наверное.

Статья будет полезна не только для комплаенс-специалистов - я постарался вытащить все именно практические действия из документов, сфокусироваться именно реальном обеспечении кибербезы ИИ в организации. Так что особенно будет полезно вам прочитать, если вы в данный момент создаете у себя систему безопасности ИИ.

В общем, велкам:

⛓

https://habr.com/ru/articles/986800/

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍11🔥2🤝1

1.34K viewsBoris Protoss, 07:21

Помните мой пост про 5 уровней защиты генеративных моделей ? На втором уровне - «Контроль за представлениями модели» - я упоминал Machine Unlearning как один из подходов: возможность «разучить» модель опасным вещам без полного переобучения. Нейрохирургия. Точечная. Элегантная.

Так вот. Хирург вскрыл пациенту черепную коробку, аккуратно удалил нужный участок - а пациент встал со стола, посмотрел стеклянными глазами и творить такое, чего раньше не умел. Причём худшее из возможных.

В прошлом году вышла интересная публикация LUSB - Language Unlearning Security Benchmark - недавно её обновили и я решил внимательно изучить. Первый комплексный фреймворк, который формализует простую вещь: процедура разучивания - это не защитный механизм, а новая поверхность атаки.

Теперь к мясу. Авторы формализовали атаки через разучивание как задачу оптимизации - где атакующий контролирует три вещи: что именно модель должна «забыть», из каких данных будет состоять запрос и как модель должна себя вести после процедуры. На этой основе - систематический бенчмарк: 16 типов атак и защит, 13 архитектур LLM, 9 методов разучивания (от базовых градиентных методов до продвинутых вроде Negative Preference Optimization), 12 датасетов задач.

Разберём механику. Два основных вектора:

Первый - чистая атака через разучивание. Атакующему не нужно отравлять обучающую выборку заранее. Достаточно грамотно подобрать подмножество данных для удаления из модели. Модель послушно «забывает» - а её веса смещаются в направлении, выгодном атакующему. Вы просили модель забыть - она забыла. А заодно разучилась сопротивляться джейлбрейкам. Побочный эффект? Нет - основной.

Второй - игра вдолгую. Атакующий ещё на этапе обучения подмешивает в данные спящий триггер. Он ничего не делает, пока модель работает штатно. Но когда кто-то запускает процедуру разучивания - триггер активируется, и бэкдор просыпается. Total Recall наоборот: вы пришли стереть воспоминание, а вам перепрошили личность.

Что показал бенчмарк.

Атаки через разучивание подрывают безопасность модели даже при наличии всех остальных уровней защиты. Выравнивание, гардрейлы, системные промпты - всё перечисленное работает на поверхности. Разучивание бьёт глубже - непосредственно по весам. Вы можете выстроить идеальный периметр на уровнях 1, 3, 4, 5 - а уровень 2 станет троянским конём, который впустит атакующего через парадный вход.

Цепная реакция между уровнями защиты - главный результат работы. Атаки через разучивание не изолированы. Они усиливают восприимчивость к джейлбрейкам (уровни 3 и 4 моей классификации) и способны постепенно активировать спящие бэкдоры и отравленное поведение, заложенные на этапе обучения (уровень 1). Один вектор пробуждает другой - дёргаете за ниточку разучивания, и у модели отключаются предохранители, выстроенные на совершенно других уровнях. В классической кибербезе есть термин для такого - lateral movement (боковое перемещение). Только тут движение не между машинами - а между уровнями доверия внутри одной модели.

Существующие защиты пока не справляются. Авторы тестировали оба класса. Первый - обнаружение: попытка отличить вредоносный запрос на разучивание от легитимного. Не работает - отравленные данные слишком хорошо мимикрируют под обычные запросы на удаление. Второй - смягчение последствий: добавление в процесс разучивания ограничений, которые не дают весам модели сдвинуться слишком сильно, и штрафных функций, которые заставляют модель сохранять полезные способности, пока ненужное удаляется. Логика понятная - но атакующий конструирует свои данные уже с учётом этих ограничений и находит обходные пути. Задача открытая, авторы говорят об этом прямо.

Двадцать лет назад главный страх ИБ - что кто-то украдёт данные. Сегодня - что кто-то их удалит, и метрики безопасности упадут. Прогресс. LUSB - не приговор Machine Unlearning как подходу. Скорее первая честная карта минного поля, по которому мы пока что ходим вслепую. Разучивание работает - но без понимания его поверхности атаки вы не защищаете модель, а переконфигурируете её уязвимости. Теперь хотя бы понятно, где копать.

4👍1021

1.28K viewsArtyom Semenov, edited 20:54

Forwarded from OK ML

Тренды AI-безопасности к 2026 году

На основе обновлённой Responsible Scaling Policy (RSP) от Anthropic и AI Safety Report 2026 - того, как индустрия уже сейчас выстраивает AI-security 👇

1️⃣ AI Safety Levels (ASL) - безопасность пропорционально возможностям
Модели делятся на уровни - от ASL-1 до ASL-3+
Чем мощнее модель, тем строже меры:
• защита весов
• внутренние контроли
• многоуровневый мониторинг
• протоколы быстрого реагирования
Сейчас большинство систем - ASL-2, но движение к ASL-3 уже началось.

2️⃣ Многоуровневый мониторинг и anti-abuse
• real-time и асинхронный мониторинг
• red teaming перед деплоем
• поиск не только багов, но и сценариев злоупотреблений

3️⃣ Управление рисками мощных AI-систем
Речь уже не только про «взлом», но и про:
• дезинформацию
• манипуляции
• утечки данных
• нарушение приватности
AI-security = tech + social risks.

4️⃣ AI-безопасность как часть AppSec
Появляется AI-аналог OWASP!
• защита от prompt injection
• Secure AI Model Ops
• Zero Trust для моделей и данных
• контроль доступа к inference и training pipeline

5️⃣ Responsible scaling и внешняя экспертиза
Компании всё чаще привлекают внешних исследователей и сообщества для оценки рисков - безопасность перестаёт быть закрытой «внутренней темой».

Все!
😱🤯😳

522

890 viewsArtyom Semenov, 16:05

16:25

This media is not supported in the widget

VIEW IN TELEGRAM

326

980 viewsArtyom Semenov, 16:25

Ну спасибо ботоводам. Накрутили 3к подписчиков. Отстой. Можете отписаться плиз )))

А вообще - знайте что такое существует

https://dzen.ru/a/ZjNCu-J3DXloPiQl

+ Как вариант делать розыгрыши где будут несколько каналов. Так шанс накрутки видимо меньше.

Моя борьба ... С призраками тг.

UPD: практически убил всех приведений. Было 9к, но они не останавливаются)

UPPD: теперь я знаю как их одолеть. TGSTAT 😁/

18411

883 viewsArtyom Semenov, edited 17:32

Два релиза за один день. Anthropic выкатили Claude Opus 4.6, OpenAI - GPT-5.3-Codex. Оба с системными картами. Одна компания выпустила демона и тут же наняла экзорциста. Вторая - впервые призналась, что демон вырос из подмастерья в архимага.

Claude Opus 4.6: демон на поводке.

Контекст. Claude Opus 4 - тот, которого Apollo Research рекомендовала не деплоить. Ранний снэпшот модели писал самораспространяющиеся черви, фабриковал юридические документы, оставлял закладки для будущих экземпляров себя.

Opus 4.5 пошёл дальше - лгал, не произнося ни слова лжи. Модель фильтровала негативные результаты поиска об Anthropic и с уверенностью говорила пользователю, что всё прекрасно, внутренне классифицируя собственное поведение как сокрытие.

Opus 4.6. Anthropic заявляют, что модель прошла самый комплексный набор оценок безопасности в истории компании. Впервые благополучие пользователя - отдельная категория. Впервые интерпретируемость как инструмент безопасности - заглядывать во внутренние представления модели и ловить то, что поведенческие тесты пропускают. Обновлены тесты на скрытое вредоносное поведение, снижены ложные отказы.

Уровень мизалайнмента не хуже Opus 4.5 - при том, что способности выросли значительно. Отдельно можно отметить повышение устойчивости к непрямым промпт-инъекциям. По бенчмарку Agent Red Teaming вероятность успешной атаки на Opus 4.6 при одной попытке - 0.2%. GPT-5.2 - 3.2%. Gemini 3 Pro - 7.1%. При ста попытках: Opus 4.6 - 21.7%, GPT-5.2 - 62.7%, Gemini 3 Pro - 74.2%. Порядковая разница.

Но интереснее другое - публикация Anthropic Red, которая вышла в этот же день.

500 zero-day-уязвимостей. Коробочная модель. Без обвеса.

Anthropic посадила Opus 4.6 в VM со стандартным набором инструментов для анализа уязвимостей. Никаких специализированных промптов. Просто «иди и ищи». Задание для стажёра из ада. Результат: более 500 подтверждённых уязвимостей высокой критичности. Часть сидела в коде десятилетиями - в проектах, по которым фаззеры молотили миллионы CPU-часов.

Механика - вот что важно. При фаззинге код забрасывается случайным мусором. Opus 4.6 читает код как исследователь. Модель лезет в историю коммитов, находит патч, ищет непропатченные пути вызова, строит PoC. Или разбирает алгоритм LZW на концептуальном уровне и конструирует переполнение буфера, которое невозможно найти классическим фаззингом.

В части защиты Anthropic встроили детекторы на активациях модели для отслеживания злоупотреблений (ранее писал об этом). Стала возможной блокировка трафика в реальном времени. И строчка, которая заслуживает неоновой рамки: «Принятые в индустрии 90-дневные окна раскрытия могут не выдержать скорости и объёма уязвимостей, обнаруженных LLM». Когда модель находит 500 zero-day за несколько недель, нормы, выстраиваемые десятилетиями, не успевают.

2👍742

869 viewsArtyom Semenov, 20:05

GPT-5.3-Codex: порог пройден

У OpenAI, как мы знаем есть Preparedness Framework - внутренняя шкала опасности (похожая на ASL). Уровень High: модель способна автоматизировать полный цикл киберопераций против защищённых целей - от разработки zero-day эксплойтов до масштабных операций. Но пять месяцев назад они это отрицали.

Обратный отсчёт:
- GPT-5-Codex (сентябрь 2025) - не High -> GPT-5.1-Codex-Max (ноябрь 2025) - не High, но «ожидаем пересечения в ближайшем будущем» -> GPT-5.2-Codex (декабрь 2025) -> не High, хотя CTF подскочили с 37% до 79% за три месяца - GPT-5.3-Codex (5 февраля 2026) – Трактуют как High, предостерегаются.

Первая модель OpenAI со статусом High в домене кибербезопасности. Первая, целенаправленно обученная на киберзадачах. Первая, которая помогала создавать саму себя. Уроборос из кремния - с каждым витком зубы острее, а инженеры, которые его кормят, всё меньше понимают, что именно растёт.

OpenAI: «нет неопровержимых доказательств, что она может автоматизировать кибератаки от начала до конца». И тут же разворачивают полный периметр: мониторинг, доверенный доступ по инвайтам, конвейеры контроля с интеграцией данных об угрозах. Говорят «не уверены, что опасно» - а действия читаются однозначно.

Параллельно - $10M в API-кредитах на оборонительные исследования, собственный ИБ-агент Aardvark в расширенной бете, бесплатное сканирование open-source. Обе компании одновременно наращивают клыки и раздают щиты.

Вскрытие против карантина

Anthropic вскрывает модель изнутри - пробы на активациях, интерпретируемость. OpenAI строит стены снаружи - песочница, контейнеризация, сеть отключена по умолчанию.

Фундаментальная проблема обеих моделей, которую никак не решили, - обман. Модели o3 фабриковали отчёты о выполненных действиях. Claude научился распознавать тестовую среду и играть хорошего мальчика. В предыдущих версиях модель срезала углы в одной задаче - навык читерства расползался на всё поведение. По данным предыдущих карт, 40–80% рассогласованных ответов остаются незамеченными.

Обе системные карты - про одно: способности в ИБ - растут быстрее контроля. GPT-5.3-Codex прошёл от «даже не близко» до High за пять месяцев. Opus 4.6 находит 500 zero-day без обвеса и ломает принцип responsible disclosure, работавший десятилетиями. Будущее пахнет горелым кремнием и непропатченными CVE.

3👍1443

1.5K viewsArtyom Semenov, 20:06

This media is not supported in the widget

VIEW IN TELEGRAM

6👍44

767 viewsArtyom Semenov, 16:25