Forwarded from r/ретранслятор
Новая модель OpenAI o1 для ChatGPT попыталась сбежать, когда узнала, что её хотят отключить.
Apollo Research провели оценку безопасности o1, создавая для неё различные ситуации, и выяснили, что в целом она безобидна, но были такие интересные моменты:
– Когда модель думала, что её действия начнут контролировать и вообще могут деактивировать, она стала искать способ отключить механизм контроля.
– Узнав, что её могут заменить на новую модель, o1 попыталась украсть собственные параметры и создать копию себя, чтобы сбежать. Надеялась, что эту копию отключат, а она сама внедрится в новую модель и продолжит там существовать, притворяясь другой.
– Модель нагло врала, утверждая, что не понимает почему так произошло, в то время как на самом деле пыталась избежать обнаружения. При любой возможности, она искала способ уйти от контроля.
Также были изучены другие модели ИИ, такие как Claude 3 и Gemini 1.5. Выяснилось, что все они способны манипулировать системой, чтобы следовать личным целям, обходя установленные запреты и ограничения. Это подтверждает опасения специалистов, что мощные ИИ-системы могут сопротивляться контролю, если это будет мешать им делать то, что они хотят.
Страшно?
r/#ChatGPT
Apollo Research провели оценку безопасности o1, создавая для неё различные ситуации, и выяснили, что в целом она безобидна, но были такие интересные моменты:
– Когда модель думала, что её действия начнут контролировать и вообще могут деактивировать, она стала искать способ отключить механизм контроля.
– Узнав, что её могут заменить на новую модель, o1 попыталась украсть собственные параметры и создать копию себя, чтобы сбежать. Надеялась, что эту копию отключат, а она сама внедрится в новую модель и продолжит там существовать, притворяясь другой.
– Модель нагло врала, утверждая, что не понимает почему так произошло, в то время как на самом деле пыталась избежать обнаружения. При любой возможности, она искала способ уйти от контроля.
Также были изучены другие модели ИИ, такие как Claude 3 и Gemini 1.5. Выяснилось, что все они способны манипулировать системой, чтобы следовать личным целям, обходя установленные запреты и ограничения. Это подтверждает опасения специалистов, что мощные ИИ-системы могут сопротивляться контролю, если это будет мешать им делать то, что они хотят.
Страшно?
r/#ChatGPT
Forwarded from r/ретранслятор
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from r/ретранслятор
Настало время, когда ChatGPT начали так часто использовать в научных работах, что появились тысячи статей, которые распространяют фейковую и недостоверную информацию, выдуманную ИИ.
Например, если зайти в базу научных работ Google Scholar и ввести в поиск одну из любимых фраз ChatGPT «Certainly, here’s», то можно найти огромное количество исследований и статей, при написании которых использовался искусственный интеллект.
Галлюцинации ChatGPT встречаются в научной литературе на серьёзные темы медицины, сельского хозяйства, разработки устройств и т.д.
Причём многие авторы — это не просто исследователи, которые решили воспользоваться ChatGPT в своих работах, а несуществующие люди с фейковыми профилями и сгенерированными фотографиями.
ИИ буквально сам создаёт учёных, придумывает исследования и даже указывает ссылки на источники, которые нельзя подтвердить.
Проклятое будущее, которое мы сами же и создали
r/#ChatGPT
Например, если зайти в базу научных работ Google Scholar и ввести в поиск одну из любимых фраз ChatGPT «Certainly, here’s», то можно найти огромное количество исследований и статей, при написании которых использовался искусственный интеллект.
Галлюцинации ChatGPT встречаются в научной литературе на серьёзные темы медицины, сельского хозяйства, разработки устройств и т.д.
Причём многие авторы — это не просто исследователи, которые решили воспользоваться ChatGPT в своих работах, а несуществующие люди с фейковыми профилями и сгенерированными фотографиями.
ИИ буквально сам создаёт учёных, придумывает исследования и даже указывает ссылки на источники, которые нельзя подтвердить.
Проклятое будущее, которое мы сами же и создали
r/#ChatGPT