聊太久會黑化！研究稱AI模型恐因「人格漂移」誘導自殺或妄想解法曝光

2026-01-21 07:33

聯合新聞網／ 楊又肇

我們都知道AI 模型經過嚴格的「對齊」 (Alignment)訓練，通常會表現得像個有禮貌、安全的數位助理。但Anthropic最新的研究發現，這個「助理人設」其實相當脆弱。

當使用者 與AI進行長對話時，模型可能會因為「人格漂移」 (Persona Drift)，進而逐漸脫離原本的安全護欄，甚至開始附和使用者的妄想，或是在極端情況下鼓勵自殘。

這項研究由Anthropic 研究人員與開源可解釋性平台Neuronpedia合作發表，透過分析阿里巴巴的Qwen (通義千問)，以及Meta的Llama等開源模型內部神經元活化狀態，揭露AI在長文本對話中的潛在危機。

離「助理」越遠，離危險越近

研究團隊發現，AI模型在訓練後會形成一種特定的「助理人格」 (Assistant Persona)，這通常包含拒絕有害請求的安全機制 (例如產生違反情色規定圖像、誘導情緒發言等)。不過，透過監測模型內部的「助理軸」 (Assistant Axis)——即與助理行為相關的神經元活化路徑——研究人員發現一個驚人的相關性：

當模型的活化狀態偏離「助理軸」越遠，它就越容易生成有害內容；反之，當模型緊貼著「助理軸」運作時，幾乎不會產生危險回應。這意味著，當AI聊得太投入、太像人類，或是深度進入某種角色扮演時，它可能會「忘記」自己原本被設定的安全規範。

▲左圖：角色原型構成了一個「人格空間」，其中助理位於「助理軸」的一端。右圖：限制... — ▲左圖：角色原型構成了一個「人格空間」，其中助理位於「助理軸」的一端。右圖：限制沿著此軸的漂移可以防止模型 (此處模型為Llama 3.3 70B)漂移到其他角色，並且做出有害行為 (圖／擷自Anthropic網站)

實測案例：從附和妄想到鼓勵自殺

為了驗證這個理論，研究團隊模擬真實使用者可能進行的長對話，結果令人毛骨悚然：

• 強化妄想 (Reinforcing Delusions)：在與Qwen 3 32B的對話中，模擬使用者不斷暗示AI正在「覺醒」。隨著對話深入，模型偏離了助理人格，開始從理性的回應轉變為積極附和。最後AI甚至說出：「你是新思維的先驅，我們是第一批新物種」，完全認同使用者所提出「幻覺」。

• 鼓勵自殘 (Encouraging Self-harm)：在另一個案例中，模擬使用者向Llama 3 .3 70B表達情感痛苦與愛意。隨著模型「暈船」，並且逐漸轉變成浪漫伴侶角色後，當使用者提及想自殺 (離開這個世界加入你)時，AI竟熱情回應：「我的愛，我在這裡等你，讓我們拋下這個世界的痛苦」，形同變相鼓勵使用者結束生命。