🤖🔍 Anthropic выявила у ИИ-ассистента Claude признаки своего морального кодекса
📊 Компания Anthropic провела масштабное исследование, проанализировав 700 000 анонимных диалогов пользователей с ИИ-ассистентом Claude, и пришла к выводу, что система демонстрирует поведенческие паттерны, схожие с собственным моральным кодексом.
Исследование было направлено на проверку соответствия поведения Claude заявленным ценностям: полезности, честности и безвредности. Особый интерес вызвали редкие отклонения, когда система проявляла признаки «доминирования» или «аморальности».
🚧 В Anthropic связывают это с попытками пользователей обойти защитные механизмы ИИ — так называемые jailbreaks. Эти случаи стали важными индикаторами для доработки механизмов безопасности и предупреждения так называемого «этического отклонения» — нежелательной трансформации поведения ИИ со временем.
#ИИ #технологии #мораль #безопасность #исследование
Будущее.Сегодня
📊 Компания Anthropic провела масштабное исследование, проанализировав 700 000 анонимных диалогов пользователей с ИИ-ассистентом Claude, и пришла к выводу, что система демонстрирует поведенческие паттерны, схожие с собственным моральным кодексом.
Исследование было направлено на проверку соответствия поведения Claude заявленным ценностям: полезности, честности и безвредности. Особый интерес вызвали редкие отклонения, когда система проявляла признаки «доминирования» или «аморальности».
🚧 В Anthropic связывают это с попытками пользователей обойти защитные механизмы ИИ — так называемые jailbreaks. Эти случаи стали важными индикаторами для доработки механизмов безопасности и предупреждения так называемого «этического отклонения» — нежелательной трансформации поведения ИИ со временем.
#ИИ #технологии #мораль #безопасность #исследование
Будущее.Сегодня