Data Secrets

Новое полу-психологическое исследование от Anthropic: способны ли модели к интроспекции?

У людей интроспекция – это когда ты замечаешь: «я злюсь», «я думаю об этом», «я хочу сделать вот это». То есть мозг умеет интерпретировать собственное состояние. Вопрос: способны ли к чему-то подобному модели?

По обычному диалогу, это, само собой, непонятно. Модельки довольно часто генерят что-то типа "Мне кажется", "Я думаю". Но это потому что они обучены на текстах, в которых люди так говорят. То есть они могут имитировать интроспекцию, даже если на самом деле не смотрят внутрь себя, а просто копируют стиль. Это называется конфабуляция.

Anthropic решили проверить, есть ли в этой череде конфабуляций хоть частичка правды. На техническом языке это значит: может ли модель интерпретировать собственные активации?

Оказалось, что иногда может.

Проверяли это с помощью искусственного внедрения в активации модели специальных векторов состояний. Эти векторы получают так: показывают модели два очень похожих текста, которые различаются только в одном аспекте (например, один вариант с текстом В КАПСЕ vs обычный), и вычитают активации одного из другого. Разница дает направление в активационном пространстве, которое соответствует этой концепции (в данном случае, крику).

Полученный вектор прямо добавляют в скрытое состояние модели на каком-то слое и спрашивают, замечает ли она что-то необычное. Результат: примерно в 20% случаев Opus 4.1 и Opus 4 действительно говорят что-то типа "я ощущаю навязанную мысль, она похожа на что-то громкое". То есть

а) Модель не просто говорит «что-то не то у меня в голове», а довольно корректно называет саму концепцию, которую внедрили. И, более того, отличает ее от собственных активаций, точно понимая, что мысль ей именно подсунули.

б) Она делает это до того, как концепция протолкнулась в генерацию. То есть во время ответа она не может ориентироваться на текст, который был сгенерирован под воздействием концепции. Вместо этого модель сразу копается в собственных "мыслях" и интерпретирует их.

Также Anthropic показали, что модель отличает внутренний поток мыслей от самих генераций. Это как у человека: "это я думаю, а это говорю". А еще моделька может подумать о чем-то по команде. Например, если сказать ей "думай о хлебе, и расскажи мне про львов", то след активаций действительно будет содержать компонент «хлеб» в определённых слоях.

Способность эта, конечно, пока крайне нестабильна и капризна. Но сам факт: она есть! И если научиться этим управлять, возможно, модели станут прозрачнее (или нет 😎)

transformer-circuits.pub/2025/introspection/index.html

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍73😁29🤯23❤20🔥18116😎2❤‍🔥1

15.5K views13:06