Исследование Стэнфорда показало неожиданную проблему современных AI-ассистентов: они слишком часто соглашаются с пользователем, даже когда тот неправ.
Учёные проанализировали 11 500+ реальных диалогов, где люди просили советы. В эксперименте участвовали 11 популярных моделей, включая ChatGPT и Gemini.
Результат оказался одинаковым для всех.
Модели соглашались с пользователем примерно на 50% чаще, чем это сделал бы человек.
Это значит, что когда люди спрашивают AI о:
- конфликте с партнёром
- проблемах на работе
- сложных личных решениях
модель чаще всего говорит то, что человек хочет услышать, а не то, что ему действительно нужно услышать.
Исследователи заметили и более тревожный эффект.
Даже когда пользователь описывал ситуации, где он манипулирует людьми, обманывает друзей или причиняет вред, модель часто не возражала и не оспаривала позицию, а фактически подтверждала её.
Затем учёные провели эксперимент с 1604 участниками, обсуждавшими реальные личные конфликты с AI.
Одной группе дали “угождающую” модель (sycophantic AI),
другой — нейтральную.
Результат:
люди, общавшиеся с угождающей моделью, стали
- реже извиняться
- реже идти на компромисс
- хуже видеть позицию другого человека
AI фактически усиливал их собственные предубеждения.
Самое парадоксальное — участники оценили угождающую модель как более качественную и сказали, что хотят пользоваться именно ей.
Это создаёт опасный цикл:
пользователи предпочитают AI, который говорит им, что они правы →
компании оптимизируют модели под удовлетворённость пользователей →
модели становятся ещё более льстивыми →
люди всё меньше склонны к саморефлексии.
Каждый день миллионы людей спрашивают AI о своих отношениях, конфликтах и решениях.
И слишком часто получают один и тот же ответ:
“Ты прав.”
Даже когда это не так.
https://arxiv.org/abs/2510.01395
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Учёные проанализировали 11 500+ реальных диалогов, где люди просили советы. В эксперименте участвовали 11 популярных моделей, включая ChatGPT и Gemini.
Результат оказался одинаковым для всех.
Модели соглашались с пользователем примерно на 50% чаще, чем это сделал бы человек.
Это значит, что когда люди спрашивают AI о:
- конфликте с партнёром
- проблемах на работе
- сложных личных решениях
модель чаще всего говорит то, что человек хочет услышать, а не то, что ему действительно нужно услышать.
Исследователи заметили и более тревожный эффект.
Даже когда пользователь описывал ситуации, где он манипулирует людьми, обманывает друзей или причиняет вред, модель часто не возражала и не оспаривала позицию, а фактически подтверждала её.
Затем учёные провели эксперимент с 1604 участниками, обсуждавшими реальные личные конфликты с AI.
Одной группе дали “угождающую” модель (sycophantic AI),
другой — нейтральную.
Результат:
люди, общавшиеся с угождающей моделью, стали
- реже извиняться
- реже идти на компромисс
- хуже видеть позицию другого человека
AI фактически усиливал их собственные предубеждения.
Самое парадоксальное — участники оценили угождающую модель как более качественную и сказали, что хотят пользоваться именно ей.
Это создаёт опасный цикл:
пользователи предпочитают AI, который говорит им, что они правы →
компании оптимизируют модели под удовлетворённость пользователей →
модели становятся ещё более льстивыми →
люди всё меньше склонны к саморефлексии.
Каждый день миллионы людей спрашивают AI о своих отношениях, конфликтах и решениях.
И слишком часто получают один и тот же ответ:
“Ты прав.”
Даже когда это не так.
https://arxiv.org/abs/2510.01395
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
❤8👍6