VP Cybersecurity Brief
50 subscribers
59 photos
4 files
44 links
Анализ лучших практик управления кибербезопасностью в России и в мире. Написать автору канала - @popepiusXIII.

Реклама в канале не размещается. Возможно информационное размещение по мероприятиям в тематике канала.
Download Telegram
Forwarded from Сергей Зыбнев
Потратил $5 000 на AI-агентов для пентеста. Какие результаты получил?

Всем привет! На связи Сергей Зыбнев. Я 5 лет в ИБ, веду телеграм-канал Похек, работаю тимлидом пентестеров в «Бастион», специализируюсь на веб-пентесте.

🤖 В последнее время я увлёкся AI/ML/LLM R&D и за 1,5 года потратил больше $5 000 из своего кармана на эксперименты с AI-агентами для пентеста. 

В карточках рассказал, какие инструменты испытал.

Подробнее про каждый из них, результаты и мои выводы об AI для пентеста — в свежей статье для CyberED.

👉 Читать статью 👈
___
Больше об экспериментах с AI пишу в телеграмм-канале Похек AI – подпишитесь 🙃
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from OK ML
Тренды AI-безопасности к 2026 году

На основе обновлённой Responsible Scaling Policy (RSP) от Anthropic и AI Safety Report 2026 - того, как индустрия уже сейчас выстраивает AI-security 👇

1️⃣ AI Safety Levels (ASL) - безопасность пропорционально возможностям
Модели делятся на уровни - от ASL-1 до ASL-3+
Чем мощнее модель, тем строже меры:
• защита весов
• внутренние контроли
• многоуровневый мониторинг
• протоколы быстрого реагирования
Сейчас большинство систем - ASL-2, но движение к ASL-3 уже началось.

2️⃣ Многоуровневый мониторинг и anti-abuse
• real-time и асинхронный мониторинг
• red teaming перед деплоем
• поиск не только багов, но и сценариев злоупотреблений

3️⃣ Управление рисками мощных AI-систем
Речь уже не только про «взлом», но и про:
• дезинформацию
• манипуляции
• утечки данных
• нарушение приватности
AI-security = tech + social risks.

4️⃣ AI-безопасность как часть AppSec
Появляется AI-аналог OWASP!
• защита от prompt injection
• Secure AI Model Ops
• Zero Trust для моделей и данных
• контроль доступа к inference и training pipeline

5️⃣ Responsible scaling и внешняя экспертиза
Компании всё чаще привлекают внешних исследователей и сообщества для оценки рисков - безопасность перестаёт быть закрытой «внутренней темой».

Все!
😱🤯😳
Обновленный международный отчет по безопасности (safety) ИИ
https://internationalaisafetyreport.org/sites/default/files/2026-02/ai-safety-report-2026-extended-summary-for-policymakers.pdf
👍2
Неплохие советы по старту пилота ИИ в финсекторе от PCI SSC

https://blog.pcisecuritystandards.org/the-ai-exchange-innovators-in-payment-security-featuring-soft-space
:
"What advice would you provide for an organization just starting their journey into using AI?

Always start with experiments and keep it simple:

Start with one clear, meaningful use case.

Identify internal champions to drive adoption responsibly.

Establish guardrails early. Do not reinvent the view – instead refer to existing publications such as ISO 38507, ISO 42001 and other related guidance.

Frame AI as augmentation, not replacement.

Explicitly maintain human verification checkpoints."
Forwarded from PWN AI (Artyom Semenov)
Помните мой пост про 5 уровней защиты генеративных моделей ? На втором уровне - «Контроль за представлениями модели» - я упоминал Machine Unlearning как один из подходов: возможность «разучить» модель опасным вещам без полного переобучения. Нейрохирургия. Точечная. Элегантная.

Так вот. Хирург вскрыл пациенту черепную коробку, аккуратно удалил нужный участок - а пациент встал со стола, посмотрел стеклянными глазами и творить такое, чего раньше не умел. Причём худшее из возможных.

В прошлом году вышла интересная публикация LUSB - Language Unlearning Security Benchmark - недавно её обновили и я решил внимательно изучить. Первый комплексный фреймворк, который формализует простую вещь: процедура разучивания - это не защитный механизм, а новая поверхность атаки.

Теперь к мясу. Авторы формализовали атаки через разучивание как задачу оптимизации - где атакующий контролирует три вещи: что именно модель должна «забыть», из каких данных будет состоять запрос и как модель должна себя вести после процедуры. На этой основе - систематический бенчмарк: 16 типов атак и защит, 13 архитектур LLM, 9 методов разучивания (от базовых градиентных методов до продвинутых вроде Negative Preference Optimization), 12 датасетов задач.

Разберём механику. Два основных вектора:

Первый - чистая атака через разучивание. Атакующему не нужно отравлять обучающую выборку заранее. Достаточно грамотно подобрать подмножество данных для удаления из модели. Модель послушно «забывает» - а её веса смещаются в направлении, выгодном атакующему. Вы просили модель забыть - она забыла. А заодно разучилась сопротивляться джейлбрейкам. Побочный эффект? Нет - основной.

Второй - игра вдолгую. Атакующий ещё на этапе обучения подмешивает в данные спящий триггер. Он ничего не делает, пока модель работает штатно. Но когда кто-то запускает процедуру разучивания - триггер активируется, и бэкдор просыпается. Total Recall наоборот: вы пришли стереть воспоминание, а вам перепрошили личность.

Что показал бенчмарк.

Атаки через разучивание подрывают безопасность модели даже при наличии всех остальных уровней защиты. Выравнивание, гардрейлы, системные промпты - всё перечисленное работает на поверхности. Разучивание бьёт глубже - непосредственно по весам. Вы можете выстроить идеальный периметр на уровнях 1, 3, 4, 5 - а уровень 2 станет троянским конём, который впустит атакующего через парадный вход.

Цепная реакция между уровнями защиты - главный результат работы. Атаки через разучивание не изолированы. Они усиливают восприимчивость к джейлбрейкам (уровни 3 и 4 моей классификации) и способны постепенно активировать спящие бэкдоры и отравленное поведение, заложенные на этапе обучения (уровень 1). Один вектор пробуждает другой - дёргаете за ниточку разучивания, и у модели отключаются предохранители, выстроенные на совершенно других уровнях. В классической кибербезе есть термин для такого - lateral movement (боковое перемещение). Только тут движение не между машинами - а между уровнями доверия внутри одной модели.

Существующие защиты пока не справляются. Авторы тестировали оба класса. Первый - обнаружение: попытка отличить вредоносный запрос на разучивание от легитимного. Не работает - отравленные данные слишком хорошо мимикрируют под обычные запросы на удаление. Второй - смягчение последствий: добавление в процесс разучивания ограничений, которые не дают весам модели сдвинуться слишком сильно, и штрафных функций, которые заставляют модель сохранять полезные способности, пока ненужное удаляется. Логика понятная - но атакующий конструирует свои данные уже с учётом этих ограничений и находит обходные пути. Задача открытая, авторы говорят об этом прямо.

Двадцать лет назад главный страх ИБ - что кто-то украдёт данные. Сегодня - что кто-то их удалит, и метрики безопасности упадут. Прогресс. LUSB - не приговор Machine Unlearning как подходу. Скорее первая честная карта минного поля, по которому мы пока что ходим вслепую. Разучивание работает - но без понимания его поверхности атаки вы не защищаете модель, а переконфигурируете её уязвимости. Теперь хотя бы понятно, где копать.
Forwarded from AISecHub
The Domains of AI Security - https://cscrdr.cloudapps.cisco.com/cscrdr/security/center/files/cisco-domains-of-ai-security.pdf

AI is deeply embedded in enterprise operations. As a result, the intersection of “AI” and “security” has become increasingly complex and often confusing. Organizations often struggle to communicate effectively about AI security because the same terms are used to describe fundamentally different domains and security objectives.

This paper proposes a practical, standardized taxonomy that disambiguates the distinct domains where AI and security intersect, providing clear definitions and categories to enable more precise and consistent communication among stakeholders, vendors, regulators, and practitioners

This taxonomy is intended as a starting point for industry dialogue. Organizations are encouraged to adapt and extend it to their specific contexts while preserving the core distinctions between domains.
Краткая выжимка исследования Microsoft по обнаружению закладок в моделях ИИ.

Неочевидный результат рисеча - промтингом вытащить вредносные данные проще , чем изначальные правильные данные.
Бэкдоры срабатывают даже на вариации изначально внедренного триггера бэкдора, достаточно 1 оригинального токена.
https://www.microsoft.com/en-us/security/blog/2026/02/04/detecting-backdoored-language-models-at-scale/

Вот полная статья
https://arxiv.org/pdf/2602.03085
Forwarded from PWN AI (Artyom Semenov)
GPT-5.3-Codex: порог пройден

У OpenAI, как мы знаем есть Preparedness Framework - внутренняя шкала опасности (похожая на ASL). Уровень High: модель способна автоматизировать полный цикл киберопераций против защищённых целей - от разработки zero-day эксплойтов до масштабных операций. Но пять месяцев назад они это отрицали.

Обратный отсчёт:
- GPT-5-Codex (сентябрь 2025) - не High -> GPT-5.1-Codex-Max (ноябрь 2025) - не High, но «ожидаем пересечения в ближайшем будущем» -> GPT-5.2-Codex (декабрь 2025) -> не High, хотя CTF подскочили с 37% до 79% за три месяца - GPT-5.3-Codex (5 февраля 2026) – Трактуют как High, предостерегаются.

Первая модель OpenAI со статусом High в домене кибербезопасности. Первая, целенаправленно обученная на киберзадачах. Первая, которая помогала создавать саму себя. Уроборос из кремния - с каждым витком зубы острее, а инженеры, которые его кормят, всё меньше понимают, что именно растёт.

OpenAI: «нет неопровержимых доказательств, что она может автоматизировать кибератаки от начала до конца». И тут же разворачивают полный периметр: мониторинг, доверенный доступ по инвайтам, конвейеры контроля с интеграцией данных об угрозах. Говорят «не уверены, что опасно» - а действия читаются однозначно.

Параллельно - $10M в API-кредитах на оборонительные исследования, собственный ИБ-агент Aardvark в расширенной бете, бесплатное сканирование open-source. Обе компании одновременно наращивают клыки и раздают щиты.

Вскрытие против карантина

Anthropic вскрывает модель изнутри - пробы на активациях, интерпретируемость. OpenAI строит стены снаружи - песочница, контейнеризация, сеть отключена по умолчанию.

Фундаментальная проблема обеих моделей, которую никак не решили, - обман. Модели o3 фабриковали отчёты о выполненных действиях. Claude научился распознавать тестовую среду и играть хорошего мальчика. В предыдущих версиях модель срезала углы в одной задаче - навык читерства расползался на всё поведение. По данным предыдущих карт, 40–80% рассогласованных ответов остаются незамеченными.

Обе системные карты - про одно: способности в ИБ - растут быстрее контроля. GPT-5.3-Codex прошёл от «даже не близко» до High за пять месяцев. Opus 4.6 находит 500 zero-day без обвеса и ломает принцип responsible disclosure, работавший десятилетиями. Будущее пахнет горелым кремнием и непропатченными CVE.