Codeby
36.5K subscribers
2.26K photos
100 videos
12 files
8.03K links
Блог сообщества Кодебай

Чат: @codeby_one
Форум: codeby.net
Обучение: codeby.academy

CTF: hackerlab.pro

VK: vk.com/codeby
YT: clck.ru/XG99c

Сотрудничество: @KinWiz

Реклама: @Savchenkova_Valentina
Download Telegram
🧠 Cisco Model Provenance Kit: “ДНК-анализ” для AI-моделей
Недавно команда AI Defense из Cisco представила Model Provenance Kit — open-source инструмент для анализа происхождения ML-моделей.
Проект помогает ответить на важный вопрос: действительно ли модель была обучена “с нуля”, или она является производной от другой модели?


Что такое Model Provenance
Model provenance — это установление происхождения модели на уровне ее обученных весов.
Проще говоря, инструмент позволяет определить:
⏺️ была ли модель fine-tuned версией другой модели
⏺️ использовался ли distillation
⏺️ является ли checkpoint переименованной копией
⏺️ происходят ли две модели из общего базового источника

Cisco сравнивает этот процесс с ДНК-анализом моделей.

🎇 Как работает инструмент
Model Provenance Kit использует двухэтапный анализ.

1️⃣ Быстрая архитектурная проверка
На первом этапе анализируются:
▶️ конфигурация модели
▶️ структура слоев
▶️ tokenizer
▶️ metadata

Если архитектура явно совпадает — система может сделать вывод без загрузки весов.

2️⃣ Анализ весов модели
Если метаданных недостаточно, запускается глубокий анализ весов:
▶️ embedding geometry;
▶️ normalization layers;
▶️ energy profiles;
▶️ прямое сравнение параметров;
▶️ корреляционные сигналы.

На основе этих признаков рассчитывается итоговый similarity score.

⬇️ Установка
git clone https://github.com/cisco-ai-defense/model-provenance-kit.git
cd model-provenance-kit
uv sync


Для работы достаточно CPU — GPU не требуется. Cisco отмечает, что архитектурные проверки выполняются за миллисекунды, а извлеченные признаки кешируются для повторного использования.

🎯 Пример использования

🧿 Сканирование модели по базе известных fingerprints
provenancekit scan bigscience/bloom-560m


Инструмент:
⏺️извлекает fingerprint модели;
⏺️запускает 3-stage lookup;
⏺️возвращает наиболее вероятные совпадения.

🪧 Сравнение двух моделей
provenancekit compare gpt2 distilgpt2


Результат включает:
➡️ metadata score;
➡️ tokenizer similarity;
➡️ weight-level similarity;
➡️ итоговый pipeline score.

#ai #llm #mlsecurity #cisco #supplychain #opensource

🔗 Все наши каналы 🔁 Все наши чаты 🪧 Для связи с менеджером
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥3