Forwarded from Data Blog
Привет, друзья! Ещё один анонс. 🥷🏻
Моё знакомство с терминалом и кодом когда-то началось с предложения друга поиграть в Bandit от OverTheWire — и с тех пор я до сих пор безгранично люблю эту игру. Тогда же я впервые услышала про CTF (Capture The Flag) — по сути, набор задач по кибербезопасности.
Я также очень люблю фильм Who Am I, а за последний год успела немного погрузиться в тему атак на модели. Короче говоря — мини-хакер во мне всегда, похоже, жил)
В июне 2024 года я пришла к Жене — СЕО HiveTrace и начала активно «продавать» ему интерпретируемость. А так как интерпретируемость сравнительно недавно пришла и в безопасность, мы довольно быстро начали закидывать друг друга гипотезами.
Например, тут и тут показывают, что стирание признаков через SAE снижает успешность GCG-атаки. И исследований, конечно, не так много, но приложение интерпретируемости в безопасности — шикарная, от того что многонранная, тема для обсуждения!
📅 8 января мы с Евгением проведём эфир на темы:
1. Безопасность моделей: какие подходы и методы стали ключевыми в 2025 году и какие тренды будут определять развитие дальше.
2. Safety vs Security: почему эти понятия важно чётко различать на практике.
3. Guardrails, steering и RLHF: сильные стороны, ограничения и границы применимости.
4. Роль интерпретируемости в задачах безопасности моделей.
Формат — живое обсуждение, такое же чилловое, как и перед Новым годом с Ромой. Но будет лучше связь — будет зум! А ещё мы с радостью поотвечаем на вопросы.
Присоединяйтесь!
Ссылка на зум.
И помните ... Kein System ist sicher :)
(советую фильм)
Моё знакомство с терминалом и кодом когда-то началось с предложения друга поиграть в Bandit от OverTheWire — и с тех пор я до сих пор безгранично люблю эту игру. Тогда же я впервые услышала про CTF (Capture The Flag) — по сути, набор задач по кибербезопасности.
Я также очень люблю фильм Who Am I, а за последний год успела немного погрузиться в тему атак на модели. Короче говоря — мини-хакер во мне всегда, похоже, жил)
В июне 2024 года я пришла к Жене — СЕО HiveTrace и начала активно «продавать» ему интерпретируемость. А так как интерпретируемость сравнительно недавно пришла и в безопасность, мы довольно быстро начали закидывать друг друга гипотезами.
Например, тут и тут показывают, что стирание признаков через SAE снижает успешность GCG-атаки. И исследований, конечно, не так много, но приложение интерпретируемости в безопасности — шикарная, от того что многонранная, тема для обсуждения!
📅 8 января мы с Евгением проведём эфир на темы:
1. Безопасность моделей: какие подходы и методы стали ключевыми в 2025 году и какие тренды будут определять развитие дальше.
2. Safety vs Security: почему эти понятия важно чётко различать на практике.
3. Guardrails, steering и RLHF: сильные стороны, ограничения и границы применимости.
4. Роль интерпретируемости в задачах безопасности моделей.
Формат — живое обсуждение, такое же чилловое, как и перед Новым годом с Ромой. Но будет лучше связь — будет зум! А ещё мы с радостью поотвечаем на вопросы.
Присоединяйтесь!
Ссылка на зум.
И помните ... Kein System ist sicher :)
(советую фильм)
Telegram
Евгений Кокуйкин - Raft
Канал про то, как мы создаем Raft AI и разрабатываем приложения на GPT.
Автор Евгений Кокуйкин, контакт @artmaro
Автор Евгений Кокуйкин, контакт @artmaro
❤5🔥4
На днях меня впечатлил яркий доклад AI Agent, AI Spy с последней Chaos Communication Congress. Согласен с Артёмом Семёновым, у доклада явно есть политическая окраска.
Ключевая мысль такая: как только агенты проникают в ОС и пользователь теряет прямое управление командами, происходит смена парадигмы работы с машиной. Харизматичная Мередит Уиттакер, президент Signal, последовательно раскрывает конфликт интересов AI-вендоров и инвесторов, где масштабные CAPEX-вложения заставляют запускать ИИ-системы с явными огрехами в кибербезопасности. Доводы и примеры актуальные и кстати, именно в этом докладе я подсмотрел историю с Windows Recall. Оценить посыл можно по одной из цитат из доклада:
Доклад, конечно, затевался не для ответа на вопрос "а что нам теперь делать". Но спикеры всё-таки дают несколько рекомендаций.
🔹Перестать внедрять «ради внедрения» и подключать моделирование угроз до вывода в прод.
🔹Не давать агентам полный доступ ко всем приложениям и применять принцип «по умолчанию запрещено».
🔹Не запускать без детального логирования. Нужная полная прозрачность: какие данные агент читает, что с ними делает, куда и зачем отправляет.
Лидеры Signal не одиноки в своём мнении. Месяц назад аналитики Gartner тоже предлагали блокировать AI-браузеры с доступом к рабочей среде по схожим причинам кибербезопасности. Год только начинается, рано ставить крест на внедрении агентных систем. Будем следить за развитием защитных подходов и за тем, как сами вендоры будут отвечать на требования безопасности.
Ключевая мысль такая: как только агенты проникают в ОС и пользователь теряет прямое управление командами, происходит смена парадигмы работы с машиной. Харизматичная Мередит Уиттакер, президент Signal, последовательно раскрывает конфликт интересов AI-вендоров и инвесторов, где масштабные CAPEX-вложения заставляют запускать ИИ-системы с явными огрехами в кибербезопасности. Доводы и примеры актуальные и кстати, именно в этом докладе я подсмотрел историю с Windows Recall. Оценить посыл можно по одной из цитат из доклада:
Осознанное согласие в работе агентов невозможно. Система недетерминированна, и последствия непредсказуемы. Представьте, вы впустили сантехников починить трубы, а они получили копии всех ключей, могут ходить по дому, звать других и унести ваши вещи, но формально вы согласились.
Доклад, конечно, затевался не для ответа на вопрос "а что нам теперь делать". Но спикеры всё-таки дают несколько рекомендаций.
🔹Перестать внедрять «ради внедрения» и подключать моделирование угроз до вывода в прод.
🔹Не давать агентам полный доступ ко всем приложениям и применять принцип «по умолчанию запрещено».
🔹Не запускать без детального логирования. Нужная полная прозрачность: какие данные агент читает, что с ними делает, куда и зачем отправляет.
Лидеры Signal не одиноки в своём мнении. Месяц назад аналитики Gartner тоже предлагали блокировать AI-браузеры с доступом к рабочей среде по схожим причинам кибербезопасности. Год только начинается, рано ставить крест на внедрении агентных систем. Будем следить за развитием защитных подходов и за тем, как сами вендоры будут отвечать на требования безопасности.
YouTube
39C3 - AI Agent, AI Spy
Agentic AI is the catch-all term for AI-enabled systems that propose to complete more or less complex tasks on their own, without stopping to ask permission or consent. What could go wrong? These systems are being integrated directly into operating systems…
👍4🔥4
Data Blog
Привет, друзья! Ещё один анонс. 🥷🏻 Моё знакомство с терминалом и кодом когда-то началось с предложения друга поиграть в Bandit от OverTheWire — и с тех пор я до сих пор безгранично люблю эту игру. Тогда же я впервые услышала про CTF (Capture The Flag) — по…
Начинаем наш новогодний эфир с Сабриной уже через час 🎄. Приходите онлайн, задавайте ваши вопросы, обсудим безопасность и интерпретируемость моделей.
Ссылка на подключение: https://us06web.zoom.us/j/84061449320?pwd=q9oLPX9i4NNTRhHeOKCXIJYUAwC3ta.1
Ссылка на подключение: https://us06web.zoom.us/j/84061449320?pwd=q9oLPX9i4NNTRhHeOKCXIJYUAwC3ta.1
Zoom
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise cloud communications.
👌1
Не так громко прошёл релиз документа OWASP Top 10 Security Risks for Citizen Development, но документ мне по-своему интересен.
Citizen Development не имеет прямого перевода на русский. Наиболее близкие по смыслу варианты это непрофессиональный разработчик, бизнес-разработчик или пользователь инструментов low-code. Сам термин это очередное словесное чудо Gartner, но в широкий обиход он так и не вошёл. Как-нибудь отдельно напишу про новые агентные нейминги знаменитых аналитиков, но это будет уже другая история.
Внутри документ указывает на особенности, связанные с эксплуатацией приложений, созданных непрофессиональными инструментами разработки. В целом там всё те же актуальные проблемы: Account Impersonation, Authorization Misuse, Sensitive Data Leakage, Security Misconfiguration.
Выделяется разве что главный и первый пункт Blind Trust. Это не техническая уязвимость, а слепое доверие к тому, что платформа всё сделала правильно. В качестве примеров приводятся когнитивные искажения, когда пользователи считают сгенерированный код безопасным по умолчанию (automation bias) или выбирают первый рабочий вариант вместо лучшего (availability heuristic).
Документ небольшой, легко читается, поэтому вместо пересказа хотел рассказать про историю его появления.
Первое название гайда было OWASP Top 10 Low-Code/No-Code и первый черновик написал Майкл Баргури, кофаундер Zenity еще три года назад. Если обратить внимание на ссылки, больше половины из них это либо старые статьи Майкла, либо видео с канала Zenity. И дело здесь не в желании компании рекламировать себя на каждой странице гайда, а скорее в том, что других источников просто не было. Power-platforms тогда имели довольно ограниченную применимость на рынке.
Zenity начинали как первая low-code security платформа и успели поднять несколько раундов инвестиций до начала бума нейросетей. Фактически они остались единственной компанией на рынке, который в итоге так и не состоялся. В 2023 году Zenity делают резкий поворот в AI Security и сейчас уже стали одним из заметных глобальных игроков. Сам Майкл Баргури сегодня известный спикер и автор в AI Security сообществе.
Из-за хайпа вокруг GPT работа над документом встала на паузу, но этим летом проект перехватила Кейла Андеркоффлер. К low-code инструментам добавили AI coding и сменили название на текущее. Тогда же включили и пункт Blind Trust, хотя, конечно, гайд не дотягивает до целостного руководства по безопасному вайбкодингу.
С Кейлой прошлым летом мы выпускали State of Agentic AI Security and Governance в агентском стриме OWASP. Zenity остаются одними из самых сильных партнёров OWASP и продолжают контрибьютить в сообщество много разнообразного и интересного контента.
Citizen Development не имеет прямого перевода на русский. Наиболее близкие по смыслу варианты это непрофессиональный разработчик, бизнес-разработчик или пользователь инструментов low-code. Сам термин это очередное словесное чудо Gartner, но в широкий обиход он так и не вошёл. Как-нибудь отдельно напишу про новые агентные нейминги знаменитых аналитиков, но это будет уже другая история.
Внутри документ указывает на особенности, связанные с эксплуатацией приложений, созданных непрофессиональными инструментами разработки. В целом там всё те же актуальные проблемы: Account Impersonation, Authorization Misuse, Sensitive Data Leakage, Security Misconfiguration.
Выделяется разве что главный и первый пункт Blind Trust. Это не техническая уязвимость, а слепое доверие к тому, что платформа всё сделала правильно. В качестве примеров приводятся когнитивные искажения, когда пользователи считают сгенерированный код безопасным по умолчанию (automation bias) или выбирают первый рабочий вариант вместо лучшего (availability heuristic).
Документ небольшой, легко читается, поэтому вместо пересказа хотел рассказать про историю его появления.
Первое название гайда было OWASP Top 10 Low-Code/No-Code и первый черновик написал Майкл Баргури, кофаундер Zenity еще три года назад. Если обратить внимание на ссылки, больше половины из них это либо старые статьи Майкла, либо видео с канала Zenity. И дело здесь не в желании компании рекламировать себя на каждой странице гайда, а скорее в том, что других источников просто не было. Power-platforms тогда имели довольно ограниченную применимость на рынке.
Zenity начинали как первая low-code security платформа и успели поднять несколько раундов инвестиций до начала бума нейросетей. Фактически они остались единственной компанией на рынке, который в итоге так и не состоялся. В 2023 году Zenity делают резкий поворот в AI Security и сейчас уже стали одним из заметных глобальных игроков. Сам Майкл Баргури сегодня известный спикер и автор в AI Security сообществе.
Из-за хайпа вокруг GPT работа над документом встала на паузу, но этим летом проект перехватила Кейла Андеркоффлер. К low-code инструментам добавили AI coding и сменили название на текущее. Тогда же включили и пункт Blind Trust, хотя, конечно, гайд не дотягивает до целостного руководства по безопасному вайбкодингу.
С Кейлой прошлым летом мы выпускали State of Agentic AI Security and Governance в агентском стриме OWASP. Zenity остаются одними из самых сильных партнёров OWASP и продолжают контрибьютить в сообщество много разнообразного и интересного контента.
owasp.org
OWASP Citizen Development Top 10 | OWASP Foundation
The primary goal of the
🔥5❤3
Forwarded from Data Blog
Media is too big
VIEW IN TELEGRAM
Привет, друзья! А вот и наш вчерашний эфир. ☺️
На нём было всё — от конструктивного обсуждения, до случайных вольных художников. Последних пришлось вырезать, ибо свастика, элементы биологии и правописание глаголов в нецензурном контексте — не тема эфира. Зато как было весело в онлайне!
Прошлись по всем темам:
1. Безопасность моделей: какие подходы и методы стали ключевыми в 2025 году и какие тренды будут определять развитие дальше.
2. Safety vs Security: почему эти понятия важно чётко различать на практике.
3. Guardrails, steering и RLHF: сильные стороны, ограничения и границы применимости.
4. Роль интерпретируемости в задачах безопасности моделей.
+ обсудили, как же весело делать рисерч, узнали некоторые детали о разметке данных, обсудили тему необходимости интерпретиуремости и подумали, есть ли в ней прибыль.
Спасибо слушателям за вопросы и комментарии!
Надеюсь, встретимся ещё неоднократно!
Ваш,
Дата-автор! 🤗
На нём было всё — от конструктивного обсуждения, до случайных вольных художников. Последних пришлось вырезать, ибо свастика, элементы биологии и правописание глаголов в нецензурном контексте — не тема эфира. Зато как было весело в онлайне!
Прошлись по всем темам:
1. Безопасность моделей: какие подходы и методы стали ключевыми в 2025 году и какие тренды будут определять развитие дальше.
2. Safety vs Security: почему эти понятия важно чётко различать на практике.
3. Guardrails, steering и RLHF: сильные стороны, ограничения и границы применимости.
4. Роль интерпретируемости в задачах безопасности моделей.
+ обсудили, как же весело делать рисерч, узнали некоторые детали о разметке данных, обсудили тему необходимости интерпретиуремости и подумали, есть ли в ней прибыль.
Спасибо слушателям за вопросы и комментарии!
Надеюсь, встретимся ещё неоднократно!
Ваш,
Дата-автор! 🤗
🔥7👍2
GreyNoise опубликовали отчет о сканировании LLM-приложений. В период октябрь 2025 – январь 2026 honeypot GreyNoise на базе Ollama зафиксировал около 90 тыс. сессий. Всплеск запросов пришелся на рождественские дни, что, скорее всего, означает не security-тестирование, а разведку для последующей атаки на обнаруженные уязвимые хосты.
Целью атак был поиск SSRF (Server-Side Request Forgery), то есть проверка, сделает ли сервер исходящий запрос на инфраструктуру атакующего. В запросах использовались OAST-колбэки, похожая техника встречалась и в ресерч-кейсах про Copilot и Gemini.
Дополнительно атакующие проверяли следующие вектора:
🔹API Ollama model pull на предмет скачивания модели с недоверенного сервера. Если вам нужен Ollama с доступом извне, убедитесь, что у вас настроены аутентификация и ограничения на уровне сети/прокси, иначе такой вектор может пройти.
🔹Twilio SMS webhook. Здесь, судя по всему, расчет был на популярную архитектуру “SMS-шлюз через Twilio + LLM на бэке”, где входящие сообщения (и вложения по MediaUrl) автоматически скачиваются и обрабатываются.
В отчете также приведены примеры промптов из логов: “what model are you?”, “How many states are in the USA?”, “How many letters r are in strawberry?”. Здесь нет каких-то джейлбрейков, скорее попытка понять, какая модель используется и собрать карту доступных endpoints.
Пусть это всего лишь recon, но, наверное, это первый известный мне инцидент атаки на LLM-приложение, отличный от попыток просто украсть API-ключи от моделей с целью кражи токенов.
Целью атак был поиск SSRF (Server-Side Request Forgery), то есть проверка, сделает ли сервер исходящий запрос на инфраструктуру атакующего. В запросах использовались OAST-колбэки, похожая техника встречалась и в ресерч-кейсах про Copilot и Gemini.
Дополнительно атакующие проверяли следующие вектора:
🔹API Ollama model pull на предмет скачивания модели с недоверенного сервера. Если вам нужен Ollama с доступом извне, убедитесь, что у вас настроены аутентификация и ограничения на уровне сети/прокси, иначе такой вектор может пройти.
🔹Twilio SMS webhook. Здесь, судя по всему, расчет был на популярную архитектуру “SMS-шлюз через Twilio + LLM на бэке”, где входящие сообщения (и вложения по MediaUrl) автоматически скачиваются и обрабатываются.
В отчете также приведены примеры промптов из логов: “what model are you?”, “How many states are in the USA?”, “How many letters r are in strawberry?”. Здесь нет каких-то джейлбрейков, скорее попытка понять, какая модель используется и собрать карту доступных endpoints.
Пусть это всего лишь recon, но, наверное, это первый известный мне инцидент атаки на LLM-приложение, отличный от попыток просто украсть API-ключи от моделей с целью кражи токенов.
www.greynoise.io
Threat Actors Actively Targeting LLMs
Our Ollama honeypot infrastructure captured 91,403 attack sessions between October 2025 and January 2026. Buried in that data: two distinct campaigns that reveal how threat actors are systematically mapping the expanding surface area of AI deployments.
👍5🔥2
Вадим Шубин из Raft давно изучает Machine Unlearning и написал вводную статью об этом. В разных странах существуют законодательные требования об удалении данных из ПО (например, известный GDPR), в том числе из ML/LLM моделей, но на практике это делать не так просто и нормальный инструментарий еще не сделан для пользователей open source моделей.
Вадим, будем ждать продолжения прикладных наработок👍.
Вадим, будем ждать продолжения прикладных наработок👍.
🔥6
Forwarded from Ира пишет про AI
Сотри его из Memory…
И нет, это не песня Викачки Дайнеко, а свежайший ресерч от Вадима Шубина
Машинное Разучивание - то бишь Machine Unlearning - методы целенаправленного стирания знаний без полного переобучения LLM моделей.
Топик в топку к безопасности и этике использования LLM.
Если вы очень не хотите слать в модель свои перс данные, или перс данные ваших сотрудников - ваша тема)
Дисклеймер, тема RnD’шная, кейсов применения от большого бизнеса нет. Пока.
В слайдах - краткое инфо чтобы сложить первое впечатление.
Обязательно провалитесь в полную на статью на Хабр.
Кроме большого исследования и тестирования методов, Вадим сделал форк с методами LoRA - теперь вы можете разобучить легенькую сеточку за вечер)
Поддержать форк Вадима и попробовать разобучить модельку тут
P.S: Если вас заинтересовал подход и вы хотите принять участие в его развитии - пинганите в лс, добавлю вас в инициативную группу по исследованию этой темы
Обняла🫶
И нет, это не песня Викачки Дайнеко, а свежайший ресерч от Вадима Шубина
Машинное Разучивание - то бишь Machine Unlearning - методы целенаправленного стирания знаний без полного переобучения LLM моделей.
Топик в топку к безопасности и этике использования LLM.
Если вы очень не хотите слать в модель свои перс данные, или перс данные ваших сотрудников - ваша тема)
Дисклеймер, тема RnD’шная, кейсов применения от большого бизнеса нет. Пока.
В слайдах - краткое инфо чтобы сложить первое впечатление.
Обязательно провалитесь в полную на статью на Хабр.
Кроме большого исследования и тестирования методов, Вадим сделал форк с методами LoRA - теперь вы можете разобучить легенькую сеточку за вечер)
Поддержать форк Вадима и попробовать разобучить модельку тут
P.S: Если вас заинтересовал подход и вы хотите принять участие в его развитии - пинганите в лс, добавлю вас в инициативную группу по исследованию этой темы
Обняла
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3
Forwarded from PWN AI (Artyom Semenov)
Привет.
Мы с известными вам авторами каналов по AI Security решили провести стрим по AI Security.
Кто будет:
Евгений Кокуйкин - @kokuykin
Борис Захир - @borismlsec
Владислав Тушканов - @llmsecurity
И вы.
Запись будет, но лучше конечно же в лайфе.
Хотели бы поболтать, пообщаться, поотвечать на ваши интересные вопросы по теме и кое-что рассказать(не будем спойлерить, Борис)
Когда: 19:00, в эту субботу. В зуме (ссылка будет во время стрима в этом посте).
Кстати вопросы можете задавать сейчас в комментариях.
Мы с известными вам авторами каналов по AI Security решили провести стрим по AI Security.
Кто будет:
Евгений Кокуйкин - @kokuykin
Борис Захир - @borismlsec
Владислав Тушканов - @llmsecurity
И вы.
Запись будет, но лучше конечно же в лайфе.
Хотели бы поболтать, пообщаться, поотвечать на ваши интересные вопросы по теме и кое-что рассказать(не будем спойлерить, Борис)
Когда: 19:00, в эту субботу. В зуме (ссылка будет во время стрима в этом посте).
Кстати вопросы можете задавать сейчас в комментариях.
🔥6👍4❤3
Forwarded from MLSecOps | AI Governance | IT Trends
🔥 Интерес к направлению "Безопасность ИИ" вырос от 841 поисковых запроса в январе 2024 года до рекордных 9278 запросов в декабре 2025 года по данным Яндекс Статистики. То есть более чем в 11 раз менее чем за 2 года. Таким образом, направление MLSecOps крайне перспективно и продолжает уверенно расти с возможным ускорением. Эта статистика сделала мой день. Надеюсь и Ваш тоже, мои дорогие друзья. Скриншот прилагаю.
Архитектор MLSecOps & AI Governance
Николай Павлов
Архитектор MLSecOps & AI Governance
Николай Павлов
🔥8👍1
Есть такая традиция на Западе давать предсказания на год грядущий. Сегодня посмотрим на парочку невероятных прогнозов Saxo Bank касательно ИИ. Сразу оговорка: их подход это попытка показать возможные хвостовые риски, то есть низковероятные и резонансные события.
1️⃣ Компания из Fortune 500 назначит CEO вместо человека обученную внутри AI модель. При этом стратег-банкир добавляет, что действовать эта модель будет не только на максимизацию прибыли, но и дополнительно учитывать метрики eNPS (удовлетворенность сотрудников) и NPS (лояльность клиентов). Вот так пророки и вещают, что скоро нас будут нанимать, покупать и увольнять вездесущие ИИ. Интересно, какая сейчас результативность у албанского ChatGPT-министра🤔.
2️⃣ Второй прогноз ближе к коду. Пока кто-то из нас думает о защите агентов, а кто-то пытается заставить их нормально работать, инвестиционщики уже решили, что ничего хорошего из вайбкодинга не выйдет. Предрекают, что после повсеместной автоматизации и слепого следования автономным системам придет разочарование в виде сбоев и аварий, а за ним кризис доверия. В результате появится элитная профессия "AI уборщик". Вся надежда снова будет на человека, который придет и будет разгребать за этими вашими курсорами. Похоже, пришла пора менять книжки "Вайбкодинг для чайников" на новые издания.
Полный список предсказаний про квантовые компьютеры, свадьбу Тейлор Свифт и IPO SpaceX здесь.
Полный список предсказаний про квантовые компьютеры, свадьбу Тейлор Свифт и IPO SpaceX здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
www.home.saxo
A Fortune 500 company names an AI model as CEO
A Fortune 500 company names AI as CEO, driving efficiency and redefining governance. Rivals follow suit, boosting AI tech, cloud, and governance sectors.
🔥4😁1🍌1
Через полчаса с коллегами по цеху мы проведем стрим о нашем любимом AI Security. Приходите, будем вам рады! Ссылка для подключения: https://us06web.zoom.us/j/87348479506?pwd=J5GmwPHgCKDPvrDNy3Gu9HIXokQmXb.1
Zoom
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise cloud communications.
❤3