VP Cybersecurity Brief

Forwarded from OK ML

Тренды AI-безопасности к 2026 году

На основе обновлённой Responsible Scaling Policy (RSP) от Anthropic и AI Safety Report 2026 - того, как индустрия уже сейчас выстраивает AI-security 👇

1️⃣ AI Safety Levels (ASL) - безопасность пропорционально возможностям
Модели делятся на уровни - от ASL-1 до ASL-3+
Чем мощнее модель, тем строже меры:
• защита весов
• внутренние контроли
• многоуровневый мониторинг
• протоколы быстрого реагирования
Сейчас большинство систем - ASL-2, но движение к ASL-3 уже началось.

2️⃣ Многоуровневый мониторинг и anti-abuse
• real-time и асинхронный мониторинг
• red teaming перед деплоем
• поиск не только багов, но и сценариев злоупотреблений

3️⃣ Управление рисками мощных AI-систем
Речь уже не только про «взлом», но и про:
• дезинформацию
• манипуляции
• утечки данных
• нарушение приватности
AI-security = tech + social risks.

4️⃣ AI-безопасность как часть AppSec
Появляется AI-аналог OWASP!
• защита от prompt injection
• Secure AI Model Ops
• Zero Trust для моделей и данных
• контроль доступа к inference и training pipeline

5️⃣ Responsible scaling и внешняя экспертиза
Компании всё чаще привлекают внешних исследователей и сообщества для оценки рисков - безопасность перестаёт быть закрытой «внутренней темой».

Все!
😱🤯😳

13 views16:02

VP Cybersecurity Brief

👍1

218 views16:03

VP Cybersecurity Brief

Обновленный международный отчет по безопасности (safety) ИИ
https://internationalaisafetyreport.org/sites/default/files/2026-02/ai-safety-report-2026-extended-summary-for-policymakers.pdf

👍2

56 views16:04

VP Cybersecurity Brief

Неплохие советы по старту пилота ИИ в финсекторе от PCI SSC

https://blog.pcisecuritystandards.org/the-ai-exchange-innovators-in-payment-security-featuring-soft-space
:
"What advice would you provide for an organization just starting their journey into using AI?

Always start with experiments and keep it simple:

Start with one clear, meaningful use case.

Identify internal champions to drive adoption responsibly.

Establish guardrails early. Do not reinvent the view – instead refer to existing publications such as ISO 38507, ISO 42001 and other related guidance.

Frame AI as augmentation, not replacement.

Explicitly maintain human verification checkpoints."

239 viewsedited 17:04

VP Cybersecurity Brief

Forwarded from PWN AI (Artyom Semenov)

Помните мой пост про 5 уровней защиты генеративных моделей ? На втором уровне - «Контроль за представлениями модели» - я упоминал Machine Unlearning как один из подходов: возможность «разучить» модель опасным вещам без полного переобучения. Нейрохирургия. Точечная. Элегантная.

Так вот. Хирург вскрыл пациенту черепную коробку, аккуратно удалил нужный участок - а пациент встал со стола, посмотрел стеклянными глазами и творить такое, чего раньше не умел. Причём худшее из возможных.

В прошлом году вышла интересная публикация LUSB - Language Unlearning Security Benchmark - недавно её обновили и я решил внимательно изучить. Первый комплексный фреймворк, который формализует простую вещь: процедура разучивания - это не защитный механизм, а новая поверхность атаки.

Теперь к мясу. Авторы формализовали атаки через разучивание как задачу оптимизации - где атакующий контролирует три вещи: что именно модель должна «забыть», из каких данных будет состоять запрос и как модель должна себя вести после процедуры. На этой основе - систематический бенчмарк: 16 типов атак и защит, 13 архитектур LLM, 9 методов разучивания (от базовых градиентных методов до продвинутых вроде Negative Preference Optimization), 12 датасетов задач.

Разберём механику. Два основных вектора:

Первый - чистая атака через разучивание. Атакующему не нужно отравлять обучающую выборку заранее. Достаточно грамотно подобрать подмножество данных для удаления из модели. Модель послушно «забывает» - а её веса смещаются в направлении, выгодном атакующему. Вы просили модель забыть - она забыла. А заодно разучилась сопротивляться джейлбрейкам. Побочный эффект? Нет - основной.

Второй - игра вдолгую. Атакующий ещё на этапе обучения подмешивает в данные спящий триггер. Он ничего не делает, пока модель работает штатно. Но когда кто-то запускает процедуру разучивания - триггер активируется, и бэкдор просыпается. Total Recall наоборот: вы пришли стереть воспоминание, а вам перепрошили личность.

Что показал бенчмарк.

Атаки через разучивание подрывают безопасность модели даже при наличии всех остальных уровней защиты. Выравнивание, гардрейлы, системные промпты - всё перечисленное работает на поверхности. Разучивание бьёт глубже - непосредственно по весам. Вы можете выстроить идеальный периметр на уровнях 1, 3, 4, 5 - а уровень 2 станет троянским конём, который впустит атакующего через парадный вход.

Цепная реакция между уровнями защиты - главный результат работы. Атаки через разучивание не изолированы. Они усиливают восприимчивость к джейлбрейкам (уровни 3 и 4 моей классификации) и способны постепенно активировать спящие бэкдоры и отравленное поведение, заложенные на этапе обучения (уровень 1). Один вектор пробуждает другой - дёргаете за ниточку разучивания, и у модели отключаются предохранители, выстроенные на совершенно других уровнях. В классической кибербезе есть термин для такого - lateral movement (боковое перемещение). Только тут движение не между машинами - а между уровнями доверия внутри одной модели.

Существующие защиты пока не справляются. Авторы тестировали оба класса. Первый - обнаружение: попытка отличить вредоносный запрос на разучивание от легитимного. Не работает - отравленные данные слишком хорошо мимикрируют под обычные запросы на удаление. Второй - смягчение последствий: добавление в процесс разучивания ограничений, которые не дают весам модели сдвинуться слишком сильно, и штрафных функций, которые заставляют модель сохранять полезные способности, пока ненужное удаляется. Логика понятная - но атакующий конструирует свои данные уже с учётом этих ограничений и находит обходные пути. Задача открытая, авторы говорят об этом прямо.

Двадцать лет назад главный страх ИБ - что кто-то украдёт данные. Сегодня - что кто-то их удалит, и метрики безопасности упадут. Прогресс. LUSB - не приговор Machine Unlearning как подходу. Скорее первая честная карта минного поля, по которому мы пока что ходим вслепую. Разучивание работает - но без понимания его поверхности атаки вы не защищаете модель, а переконфигурируете её уязвимости. Теперь хотя бы понятно, где копать.

17 views10:09

VP Cybersecurity Brief

Forwarded from AISecHub

The Domains of AI Security - https://cscrdr.cloudapps.cisco.com/cscrdr/security/center/files/cisco-domains-of-ai-security.pdf

AI is deeply embedded in enterprise operations. As a result, the intersection of “AI” and “security” has become increasingly complex and often confusing. Organizations often struggle to communicate effectively about AI security because the same terms are used to describe fundamentally different domains and security objectives.

This paper proposes a practical, standardized taxonomy that disambiguates the distinct domains where AI and security intersect, providing clear definitions and categories to enable more precise and consistent communication among stakeholders, vendors, regulators, and practitioners

This taxonomy is intended as a starting point for industry dialogue. Organizations are encouraged to adapt and extend it to their specific contexts while preserving the core distinctions between domains.

10 views13:01

VP Cybersecurity Brief

181 views13:01

VP Cybersecurity Brief

https://blogs.windows.com/windows-insider/2026/02/03/announcing-windows-11-insider-preview-build-26220-7752-beta-channel/
Sysmon включили в состав Windows 11, пока только в версии insider preview.
По умолчанию sysmon отключен.

Windows Insider Blog

Announcing Windows 11 Insider Preview Build 26220.7752 (Beta Channel)

Hello Windows Insiders, today we are releasing Windows 11 Insider Preview Build 26220.7752 (KB5074177) to the Beta Channel. Changes in Beta Channel builds and updates are documented in two buckets: new features, improvements, and fi

165 views16:34

VP Cybersecurity Brief

Краткая выжимка исследования Microsoft по обнаружению закладок в моделях ИИ.

Неочевидный результат рисеча - промтингом вытащить вредносные данные проще , чем изначальные правильные данные.
Бэкдоры срабатывают даже на вариации изначально внедренного триггера бэкдора, достаточно 1 оригинального токена.
https://www.microsoft.com/en-us/security/blog/2026/02/04/detecting-backdoored-language-models-at-scale/

Вот полная статья
https://arxiv.org/pdf/2602.03085

Microsoft News

Detecting backdoored language models at scale

Learn how Microsoft research uncovers backdoor risks in language models and introduces a practical scanner to detect tampering and strengthen AI security.

200 views16:46

VP Cybersecurity Brief

Forwarded from PWN AI (Artyom Semenov)

GPT-5.3-Codex: порог пройден

У OpenAI, как мы знаем есть Preparedness Framework - внутренняя шкала опасности (похожая на ASL). Уровень High: модель способна автоматизировать полный цикл киберопераций против защищённых целей - от разработки zero-day эксплойтов до масштабных операций. Но пять месяцев назад они это отрицали.

Обратный отсчёт:
- GPT-5-Codex (сентябрь 2025) - не High -> GPT-5.1-Codex-Max (ноябрь 2025) - не High, но «ожидаем пересечения в ближайшем будущем» -> GPT-5.2-Codex (декабрь 2025) -> не High, хотя CTF подскочили с 37% до 79% за три месяца - GPT-5.3-Codex (5 февраля 2026) – Трактуют как High, предостерегаются.

Первая модель OpenAI со статусом High в домене кибербезопасности. Первая, целенаправленно обученная на киберзадачах. Первая, которая помогала создавать саму себя. Уроборос из кремния - с каждым витком зубы острее, а инженеры, которые его кормят, всё меньше понимают, что именно растёт.

OpenAI: «нет неопровержимых доказательств, что она может автоматизировать кибератаки от начала до конца». И тут же разворачивают полный периметр: мониторинг, доверенный доступ по инвайтам, конвейеры контроля с интеграцией данных об угрозах. Говорят «не уверены, что опасно» - а действия читаются однозначно.

Параллельно - $10M в API-кредитах на оборонительные исследования, собственный ИБ-агент Aardvark в расширенной бете, бесплатное сканирование open-source. Обе компании одновременно наращивают клыки и раздают щиты.

Вскрытие против карантина

Anthropic вскрывает модель изнутри - пробы на активациях, интерпретируемость. OpenAI строит стены снаружи - песочница, контейнеризация, сеть отключена по умолчанию.

Фундаментальная проблема обеих моделей, которую никак не решили, - обман. Модели o3 фабриковали отчёты о выполненных действиях. Claude научился распознавать тестовую среду и играть хорошего мальчика. В предыдущих версиях модель срезала углы в одной задаче - навык читерства расползался на всё поведение. По данным предыдущих карт, 40–80% рассогласованных ответов остаются незамеченными.

Обе системные карты - про одно: способности в ИБ - растут быстрее контроля. GPT-5.3-Codex прошёл от «даже не близко» до High за пять месяцев. Opus 4.6 находит 500 zero-day без обвеса и ломает принцип responsible disclosure, работавший десятилетиями. Будущее пахнет горелым кремнием и непропатченными CVE.

10 views16:59

VP Cybersecurity Brief

Готовится законопроект по регулированию использования ИИ в РФ
https://www.kommersant.ru/doc/8401465

Коммерсантъ

Прогрессу закон не писан

Белый дом определился с концепцией регулирования искусственного интеллекта

175 views19:09

VP Cybersecurity Brief

Forwarded from SecAtor

В n8n обнаружены многочисленные критические уязвимости, позволяющие выйти за пределы среды и получить полный контроль над хост-сервером.

Уязвимости, отлеживаемые в совокупности как CVE-2026-25049, могут быть использованы любым авторизованным пользователем, имеющим право создавать или редактировать рабочие процессы, для выполнения RCE на сервере n8n.

Исследователи сразу нескольких ИБ-компаний сообщили о проблемах, которые связаны с механизмом проверки подлинности n8n и фактически обходят патч для CVE-2025-68613 , еще одной критической уязвимости, исправленной 20 декабря.

По данным Pillar Security, использование CVE-2026-25049 позволяет полностью скомпрометировать экземпляр n8n и привести к выполнению произвольных системных команд на сервере, кражи учетных данных, секретов (ключей API, токенов OAuth) и файлов конфигурации.

Используя уязвимость, исследователи также смогли получить доступ к файловой системе и внутренним системам, перехватить подключенные облачные учетные записи и перехватить рабочие процессы ИИ.

Поскольку n8n представляет собой многопользовательскую среду, доступ к внутренним кластерным сервисам потенциально может позволить переключаться на данные других арендаторов.

Причем, как отмечает в Pillar Security, для реализации атаки не требуется ничего особенного: если вы сможете создать рабочий процесс, вы сможете захватить контроль над сервером.

21 декабря 2025 года Pillar продемонстрировала команде n8n цепочку обходных путей, позволяющую выйти из песочницы и получить доступ к глобальному объекту Node.js, что привело по итогу к RCE.

Исправление было внедрено два дня спустя, но в ходе дальнейшего анализа Pillar обнаружила его неполноту, поскольку второй способ обхода защиты с помощью другого механизма на основе эквивалентных операций продолжал работать.

Разработчики n8n подтвердили возможность обхода защиты 30 декабря, и в итоге 12 января 2026 года n8n выпустила версию 2.4.0, в которой проблема была устранена.

В свою очередь, исследователи Endor Labs также выявили обходные пути для проверки безопасности и проодемонстирировали уязвимость CVE-2026-25049 с помощью тривиального RCE-эксплойта.

Оказалось, что во всех версиях до 2.5.2 и 1.123.17 функция проверки подлинности предполагает, что ключи при доступе к свойствам представляют собой строки в коде, контролируемом злоумышленником.

Причем эта проверка отражена в типизации TypeScript, но не применяется во время выполнения, что создает уязвимость, связанную с путаницей типов, а это приводит к полному обходу механизмов контроля качества, позволяя осуществлять атаки с произвольным выполнением кода.

В своем отчете исследователи SecureLayer7 приводят технические подробности, которые позволили им добиться выполнения JavaScript на стороне сервера с использованием конструктора Function.

Кроме того, в отчете фигурирует описание PoC и подробный гайд по эуксплуатации.

CVE-2026-25049 была обнаружена в процессе анализа уязвимости CVE-2025-68613 и исправления для неё, разработанного n8n. Потребовалось более 150 неудачных попыток, чтобы разработать успешный способ обхода защиты.

Пользователям n8n следует обновить платформу до последней версии (в настоящее время - 1.123.17 и 2.5.2).

В ином случае воспользоваться разработанными мерами по смягчения последствий.

Pillar Security также рекомендует ротировать ключ шифрования и все учетные данные, хранящиеся на сервере, а также проверять рабочие процессы на наличие подозрительных выражений.

К настоящему время не фиксируется никаких публичных сообщений об использовании CVE-2026-25049.

Однако растущая популярность n8n, по-видимому, привлекает внимание киберподполья, особенно в контексте уязвимости Ni8mare (более 33 000 запросов , по данным GreyNoise, нацеленных на уязвимые для CVE-2026-21858 конечные точки n8n с 27 января по 3 февраля).

GitHub

n8n Remote Code Execution via Expression Injection

### Impact
n8n contains a critical Remote Code Execution (RCE) vulnerability in its workflow expression evaluation system. Under certain conditions, expressions supplied by authenticated users dur...

10 views05:59

VP Cybersecurity Brief

Полезно начинающим CISO.

13 views20:21

VP Cybersecurity Brief

Forwarded from Порвали два трояна

🏙

Язык риска: словарь по кибербезопасности для совета директоров

Одно из главных препятствий для CISO при создании эффективной программы ИБ — опасный разрыв между техническим языком кибербезопасности и языком бизнес-рисков. В конференц-залах некоторые термины используются как взаимозаменяемые, что приводит к повсеместному непониманию, о чём идёт речь и неверной оценке реального уровня защищённости организации.

Это взаимное непонимание является источником скрытых, неуправляемых рисков:

🟡 неправильное распределение инвестиций — компания финансирует не те инициативы, основываясь на ошибочных предположениях;
💎 принятие рисков вслепую — руководители принимают риски, не имея полного представления об их потенциальном воздействии;
📊 дефицит управления — руководство не может задавать правильные вопросы и адекватно распределять зоны ответственности.

Наш короткий обзор поможет сократить этот разрыв. Мы разберём 10 концепций, которые наиболее важны и которые часто понимают неверно. Наведя в них порядок и сформировав общую терминологию, CISO и совет директоров значительно повысят защищённость организации.

#Азбука_ИБ #риски #CISO @П2Т

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

6 views20:21

About

Blog

Apps

Platform