Будущее.Сегодня
3.02K subscribers
3.05K photos
527 videos
2 files
5.91K links
Будущее уже наступило. 🚀

Рассказываем о технологиях, инновациях и развитии общества. Освещаем ключевые события в экономике и науке, которые повлияют на будущее.

Особое внимание криптовалютам, их перспективам и влиянию на мировую жизнь.

@weirdestnoob
Download Telegram
🤖🔍 Anthropic выявила у ИИ-ассистента Claude признаки своего морального кодекса

📊 Компания Anthropic провела масштабное исследование, проанализировав 700 000 анонимных диалогов пользователей с ИИ-ассистентом Claude, и пришла к выводу, что система демонстрирует поведенческие паттерны, схожие с собственным моральным кодексом.

Исследование было направлено на проверку соответствия поведения Claude заявленным ценностям: полезности, честности и безвредности. Особый интерес вызвали редкие отклонения, когда система проявляла признаки «доминирования» или «аморальности».

🚧 В Anthropic связывают это с попытками пользователей обойти защитные механизмы ИИ — так называемые jailbreaks. Эти случаи стали важными индикаторами для доработки механизмов безопасности и предупреждения так называемого «этического отклонения» — нежелательной трансформации поведения ИИ со временем.

#ИИ #технологии #мораль #безопасность #исследование

Будущее.Сегодня