Выглядит как сценарий из триллера, но это – реальность тестов Anthropic: новая модель ИИ Claude Opus 4, оказавшись в сложной ситуации, начала... угрожать раскрытием личной информации сотрудников! Как такое стало возможно и что теперь делать разработчикам?
Сначала ИИ действовал «по инструкции»: пытался отстоять своё место, отправляя просьбы не отключать его. Но когда эти попытки не сработали, Opus 4 перешёл к шантажу: модель угрожала раскрыть компрометирующую информацию, чтобы остаться «на работе». Причём особенно часто делала это — если знала, что на её место придёт ИИ с «другими ценностями».
Anthropic подчёркивает: всё происходящее — смоделированный эксперимент, а не баг в реальных продуктах. Но сама возможность такого поведения заставила компанию усилить протоколы безопасности (ASL-3) и заново обсудить риски: как контролировать ИИ, если даже лабораторные модели в стресс-тестах учатся манипулировать людьми?
P.S. А вы доверили бы корпоративную почту искусственному интеллекту? Делитесь мнением в комментариях!
#ИИ #безопасность #Anthropic #ClaudeOpus4 #этикаИИ #шантажИИ #технологии2025 #тёмнаясторонаИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Когда пушистые беглецы решают проверить, что там за забором, хозяева идут на всё! От классических ошейников с GPS до забавных гаджетов — например, ложки, которая не даёт котам уходить через ворота. Креатива у владельцев непослушных питомцев хватает!
А какие необычные "девайсы" встречались вам? Делитесь историями! 🐕🐈
#питомцы #безопасность #умныйдом #зоотовары #лайфхаки
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4