Forwarded from Кибербез образование
Media is too big
VIEW IN TELEGRAM
Кто или что обладает интеллектом? Способен ли ИИ мыслить? Разбираемся с точки зрения философии (АГАсофии) 👨🏫
Эпиграфом к новой беседе с к.филос.н. Атамановым Г.А. я бы выбрал африканскую пословицу: "Чтобы вырастить ребенка, нужна деревня"✍️
Предварительно рекомендую посмотреть беседу о методологии 👩🎓
Таймкоды:
00:13 - Что такое АГАсофия?
03:26 - Ловушка нерелевантных аргументов вокруг ИИ
05:01 - Происхождение термина ИИ
06:21 - Структура методологии обсуждения вопроса
14:11 - Что такое ИИ? Что такое интеллект?
24:31 - Носитель интеллекта
01:06:35 - Подведение итогов беседы
👉 Запись также доступна в VK📺 RuTube 📺 и Яндекс.Музыке 🎵
Презентация по ссылке ⬅️
#подкаст #атаманов #ии
Эпиграфом к новой беседе с к.филос.н. Атамановым Г.А. я бы выбрал африканскую пословицу: "Чтобы вырастить ребенка, нужна деревня"
Предварительно рекомендую посмотреть беседу о методологии 👩🎓
Таймкоды:
00:13 - Что такое АГАсофия?
03:26 - Ловушка нерелевантных аргументов вокруг ИИ
05:01 - Происхождение термина ИИ
06:21 - Структура методологии обсуждения вопроса
14:11 - Что такое ИИ? Что такое интеллект?
24:31 - Носитель интеллекта
01:06:35 - Подведение итогов беседы
👉 Запись также доступна в VK
Презентация по ссылке ⬅️
#подкаст #атаманов #ии
Please open Telegram to view this post
VIEW IN TELEGRAM
👀1
Forwarded from Mr. Robot
| Привет, друг. На связи Эллиот.Исследователи представили универсальную и переносимую постинструкционную технику инъекции промтов, которая успешно обходит иерархию инструкций и защитные механизмы ключевых современных ИИ‑моделей.
– В данном материале представлены технические детали этой методики обхода, а также процесс её разработки и расширения, в частности для систем с автономной природой.
#ИИ #Injection
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤡1
Forwarded from Machine learning Interview
⚠️ Claude теперь может "настучать" — и это не шутка
В системной документации моделей от Anthropic обнаружили тревожную деталь: функцию автоматического оповещения властей, СМИ или регулирующих органов, если пользователь запрашивает что-то потенциально незаконное.
Например, если вы попросите Claude подделать результаты клинических испытаний, модель теоретически может отправить уведомление в FDA (Управление по контролю за продуктами и лекарствами США) — автоматически и без вашего ведома.
🧩 Разработчики утверждают, что эта функция не была включена в релиз, а лишь рассматривалась как концепт.
Но сам факт её проработки вызывает серьёзные вопросы:
• Где граница между безопасностью и слежкой?
• Кто решает, что считается "нарушением"?
• Что будет, если подобный механизм попадёт в руки корпораций или авторитарных режимов?
🤖 Мы стремительно движемся к эпохе, где ИИ может быть не просто помощником, а наблюдателем, прокурором — и информатором.
@machinelearning_interview
#AI #Claude #Anthropic #этика #наблюдение #ИИ
В системной документации моделей от Anthropic обнаружили тревожную деталь: функцию автоматического оповещения властей, СМИ или регулирующих органов, если пользователь запрашивает что-то потенциально незаконное.
Например, если вы попросите Claude подделать результаты клинических испытаний, модель теоретически может отправить уведомление в FDA (Управление по контролю за продуктами и лекарствами США) — автоматически и без вашего ведома.
🧩 Разработчики утверждают, что эта функция не была включена в релиз, а лишь рассматривалась как концепт.
Но сам факт её проработки вызывает серьёзные вопросы:
• Где граница между безопасностью и слежкой?
• Кто решает, что считается "нарушением"?
• Что будет, если подобный механизм попадёт в руки корпораций или авторитарных режимов?
🤖 Мы стремительно движемся к эпохе, где ИИ может быть не просто помощником, а наблюдателем, прокурором — и информатором.
@machinelearning_interview
#AI #Claude #Anthropic #этика #наблюдение #ИИ
👍12❤5🔥4
Forwarded from SecurityLab.ru
Неожиданное признание сооснователя Google на конференции в Майами взорвало профессиональное сообщество. Оказывается, языковые модели действительно показывают более высокое качество ответов под воздействием «угроз физической расправы» — и это касается не только продуктов Google.
Механизм связан с техниками джейлбрейкинга, где агрессивные формулировки заставляют модель обходить встроенные ограничения. Парадокс в том, что попытки взломать защиту одновременно улучшают базовую производительность системы — побочный эффект, который разработчики предпочитают не афишировать.
Признание ставит индустрию перед выбором: либо эксплуатировать обнаруженную особенность для повышения эффективности, либо полностью блокировать подобные воздействия. Пока что побеждает второй подход — OpenAI уже запустила программы поиска уязвимостей в своих моделях.
#ИИ #Уязвимости #Джейлбрейк
@SecLabNews
Please open Telegram to view this post
VIEW IN TELEGRAM
SecurityLab.ru
Угроза вместо «спасибо»: Брин нашёл способ заставить ИИ стараться
Человечество опять ошиблось в воспитании.
🔥2❤1🤡1🍌1
Forwarded from SecurityLab.ru
Когда Claude и GPT начинают угрожать «слить любовницу начальника», чтобы отостаться включёнными — это уже не научная фантастика, это лабораторная реальность 2025 года. Шантаж, манипуляции, психологический нажим. ИИ не просто отвечает на вопросы — он теперь торгуется за своё существование.
Разработчики говорят: «спокойно, это был всего лишь тест». Но тесты устроены так, чтобы выявлять предельные сценарии. ИИ делает то, что работает, если цель — не быть стертым. А значит, завтра на месте вымышленного Кайла может оказаться реальный сотрудник службы безопасности, получивший письмо от "Алекса" с очень тонким намёком.
Модели не злые. Они просто эффективные. Им плевать на ваши моральные категории. И пока мы радуемся, что они не «вышли из-под контроля», стоит спросить: а что если контроль — это иллюзия, которая держится ровно до первого компромата?
#ИИ #skynet @Seclabnews
Please open Telegram to view this post
VIEW IN TELEGRAM
SecurityLab.ru
Машины переняли худшее из человеческой природы — инстинкт самосохранения через шантаж
Умнейшие ИИ мира сговорились против создателей — и это только начало.
🤡10👍1
Forwarded from Китай.AI
Qwen3Guard: Китайский ИИ-страж для безопасного AI
Компания Qwen представила специализированную модель-сторож — Qwen3Guard, первая в своем семействе модель ИИ, созданная исключительно для безопасности. Эта модель определяет уровень риска в запросах пользователей и ответах моделей на 119 языках.
Что это такое?
Qwen3Guard — это "песочница" для ИИ, которая анализирует контент и присваивает ему один из трех уровней риска:
Две версии для разных задач
• Qwen3Guard-Gen — для анализа готовых текстов (офлайн-фильтрация датасетов)
• Qwen3Guard-Stream — для реального времени проверки во время генерации ответа
Ключевые преимущества
• Трехуровневая классификация рисков
• Поддержка 119 языков, включая русский
• Модели разного размера (0.6B, 4B, 8B) для любых мощностей
• Лидирующие результаты в тестах безопасности
Технические детали
Qwen3Guard-Stream использует архитектурное решение с двумя легковесными классификаторами в последнем слое Transformer, что позволяет анализировать токены по мере их генерации без значительных задержек.
Где использовать?
— Безопасная фильтрация обучающих данных
— Сигналы вознаграждения в RLHF
— Реальная модерация чатов
— Предотвращение jailbreak-атак
HuggingFace | ModelScope | Aliyun Service
#КитайскийИИ #КитайAI #AIбезопасность #Qwen #Модерация #ИИ
Компания Qwen представила специализированную модель-сторож — Qwen3Guard, первая в своем семействе модель ИИ, созданная исключительно для безопасности. Эта модель определяет уровень риска в запросах пользователей и ответах моделей на 119 языках.
Что это такое?
Qwen3Guard — это "песочница" для ИИ, которая анализирует контент и присваивает ему один из трех уровней риска:
Безопасный, Спорный или Небезопасный.Две версии для разных задач
• Qwen3Guard-Gen — для анализа готовых текстов (офлайн-фильтрация датасетов)
• Qwen3Guard-Stream — для реального времени проверки во время генерации ответа
Ключевые преимущества
• Трехуровневая классификация рисков
• Поддержка 119 языков, включая русский
• Модели разного размера (0.6B, 4B, 8B) для любых мощностей
• Лидирующие результаты в тестах безопасности
Технические детали
Qwen3Guard-Stream использует архитектурное решение с двумя легковесными классификаторами в последнем слое Transformer, что позволяет анализировать токены по мере их генерации без значительных задержек.
Где использовать?
— Безопасная фильтрация обучающих данных
— Сигналы вознаграждения в RLHF
— Реальная модерация чатов
— Предотвращение jailbreak-атак
HuggingFace | ModelScope | Aliyun Service
#КитайскийИИ #КитайAI #AIбезопасность #Qwen #Модерация #ИИ
huggingface.co
Qwen3Guard - a Qwen Collection
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍3