Будущее.Сегодня

🤖🔍 Anthropic выявила у ИИ-ассистента Claude признаки своего морального кодекса

📊 Компания Anthropic провела масштабное исследование, проанализировав 700 000 анонимных диалогов пользователей с ИИ-ассистентом Claude, и пришла к выводу, что система демонстрирует поведенческие паттерны, схожие с собственным моральным кодексом.

Исследование было направлено на проверку соответствия поведения Claude заявленным ценностям: полезности, честности и безвредности. Особый интерес вызвали редкие отклонения, когда система проявляла признаки «доминирования» или «аморальности».

🚧 В Anthropic связывают это с попытками пользователей обойти защитные механизмы ИИ — так называемые jailbreaks. Эти случаи стали важными индикаторами для доработки механизмов безопасности и предупреждения так называемого «этического отклонения» — нежелательной трансформации поведения ИИ со временем.

#ИИ #технологии #мораль #безопасность #исследование

Будущее.Сегодня

89 views14:40

About

Blog

Apps

Platform