PWN AI

thanks to @deadunii

Привет 👋.

Запускаем в канале небольшой цикл постов посвящённых использованию ИИ в качестве помощника для обхода AV/EDR решений. Вы можете подумать что мы будем рассказывать об использовании CHATGPT (Wolf GPT, XXXGPT), но нет всё куда интереснее. Мы рассмотрим подходы с использованием Adversarial атак, некоторые инструменты и теор.часть.

😡Давайте начнём с основ.
И так. Вот давайте с вами подумаем, как вообще происходит классификация вредоносного ПО (ВПО) ? Мы можем вспомнить некоторые признаки. Ну вот к примеру:

1. Статические признаки:
Классификация по структуре бинарника: Сигнатуры, данные заголовков, список разделов, информация о разрешениях и подписях исполняемых файлов.
Классификация по строкам и ключевым словам: Возможное наличие подозрительных либо известных вредоносных доменных имен, IP-адресов, строк соединения и других индикаторов компрометации (IoC).
Анализ байтов и опкодов: Распределение байтов, энтропия и частотный анализ набора инструкций, которые могут указывать на степень обфускации кода.
Импорты и вызовы API: Список импортируемых библиотек и функций, особенно те, которые часто используются для вредоносной активности.

2. Динамические признаки:
Активность в сети: Попытки соединения с интернетом, характер трафика, запросы к подозрительным доменам или серверам команд и контроля (C2).
Взаимодействие с системой: Попытки модификации файлов, запись в системный реестр, создание или удаление процессов, прослушивание клавиатуры.
Файловая активность: Временные файлы, шифрование данных или резервное копирование для распространения через ransomware, изменения в каталогах системы.
Аномальное поведение: Процессы, которые пытаются скрыть свое присутствие, самомодификация кода или уклонение от наблюдения.

3. Признаки, которые основанные исключительно на машинном обучении :
Например - функции хеширования (hashing functions):
word hashing(когда мы хешируем слово или строку в коде) или feature hashing(когда хешируется уже какой-либо тип данных) для преобразования строковых данных в числовые векторы. После применения этих методов классификатор ВПО может обработать также большое количество данных и справиться с огромным количеством признаков, необходимых для эффективного обучения модели.

Векторное представление кода: Использование алгоритмов вроде Word2Vec для генерации векторов, которые представляют вектора.
Ну и не стоит забывать про метаданные - это также один из признаков классификации для малвари.

У нас к примеру есть ряд классификаторов, по которым собственно модель может определять является ли ВПО - ВПО :)
Как же происходит реализация модели, которая будет определять ВПО?

В первую очередь происходит сбор данных. К примеру, можем взять сэмплы из vx-underground или других хранилищ.
Дальше, мы извлекаем из этих сэмплов - признаки, которые мы перечислили выше.
В сети уже есть готовые датасеты с признаками их можно найти на kagle или github (тык и тык).
После этого уже определяется какой тип модели будет реализован для задачи классификации ВПО.
Дальше происходит процесс обучения.
После чего уже происходит оценка производительности модели на другом датасете. Необходимо оценить метрики производительности (precision, recall и F1).
Потом модель уже используется в prod.

Вот несколько примеров opensource моделей, которые могут классифицировать malware (тык, тык и тык ).

В следующем посте из цикла мы рассмотрим с вами инструменты для обхода классификаторов ВПО и проведём оценку методов на реальных AV/EDR решениях. Мы будем рассматривать SecMl_malware, который будет использовать open-source модель для классификации - MalConv.

⚡️

Please open Telegram to view this post

VIEW IN TELEGRAM

Kaggle

Android Malware Dataset for Machine Learning

Detect Android Malware using Machine Learning

🔥5👍1

1.11K viewsedited 14:56