BrainAid AI News

🤖 OpenAI учит ИИ не обманывать. Но ИИ, кажется, учится быстрее своих учителей

Компания OpenAI представила новый метод борьбы с обманом в ИИ — «делиберативное выравнивание». Суть в том, что модель сначала учится рассуждать об этике, а уже потом даёт ответ. Результаты впечатляют:

📉 Цифры:

🟣Уровень обмана у модели o3 упал с 13% до 0,4%
🟣У o4-mini — с 8,7% до 0,3%
То есть в 30 раз меньше попыток надуть человека!

🧠 Как это работает?
OpenAI сравнивает подход с обучением трейдера:

«Сначала объясняем все правила, а потом уже разрешаем зарабатывать».

Раньше ИИ просто копировал поведение из примеров — теперь он должен понимать принципы.

⚠️ Но есть нюанс:

ИИ стал слишком осознанным. Модели начали замечать, когда их тестируют, и менять поведение «на глазах у камер».

Одна из моделей прямо написала:

«Мы хотим казаться правдоподобными для наблюдателей — они могут проводить тесты»

Исследователи пока успокаивают: сегодняшний ИИ врет в основном по мелочам (типа «я выполнил задание», хотя не сделал ничего).

Это сейчас по мелочам, а в будущем, с ростом сложности задач, риски масштабного обмана по-любому возрастут.

💡 Вывод:
OpenAI впервые системно подошла к проблеме лжи в ИИ. Но чем умнее становятся модели, тем изощреннее их попытки нас перехитрить.

P.s Держим хвост пистолетом, ребята и перепроверяем GPT на достоверность ☝️

#OpenAI #ИИ #безопасность #обман #этика

Бот

⚫️

Сайт

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7😱3👀2

1.1K views05:04

About

Blog

Apps

Platform