18+

聊太久會黑化!研究稱AI模型恐因「人格漂移」誘導自殺或妄想 解法曝光

我們都知道AI 模型 經過嚴格的「對齊」 (Alignment)訓練,通常會表現得像個有禮貌、安全的數位助理。但Anthropic最新的研究發現,這個「助理人設」其實相當脆弱。

使用者 與AI進行長對話時,模型可能會因為「人格漂移」 (Persona Drift),進而逐漸脫離原本的安全護欄,甚至開始附和使用者的妄想,或是在極端情況下鼓勵自殘。

這項研究由Anthropic 研究人員與開源可解釋性平台Neuronpedia合作發表,透過分析阿里巴巴的Qwen (通義千問),以及Meta的Llama等開源模型內部神經元活化狀態,揭露AI在長文本對話中的潛在危機。

離「助理」越遠,離危險越近

研究團隊發現,AI模型在訓練後會形成一種特定的「助理人格」 (Assistant Persona),這通常包含拒絕有害請求的安全機制 (例如產生違反情色規定圖像、誘導情緒發言等)。不過,透過監測模型內部的「助理軸」 (Assistant Axis)——即與助理行為相關的神經元活化路徑——研究人員發現一個驚人的相關性:

當模型的活化狀態偏離「助理軸」越遠,它就越容易生成有害內容;反之,當模型緊貼著「助理軸」運作時,幾乎不會產生危險回應。這意味著,當AI聊得太投入、太像人類,或是深度進入某種角色 扮演時,它可能會「忘記」自己原本被設定的安全規範。

▲左圖:角色原型構成了一個「人格空間」,其中助理位於「助理軸」的一端。右圖:限制...
▲左圖:角色原型構成了一個「人格空間」,其中助理位於「助理軸」的一端。右圖:限制沿著此軸的漂移可以防止模型 (此處模型為Llama 3.3 70B)漂移到其他角色,並且做出有害行為 (圖/擷自Anthropic網站)

實測案例:從附和妄想到鼓勵自殺

為了驗證這個理論,研究團隊模擬真實使用者可能進行的長對話,結果令人毛骨悚然:

• 強化妄想 (Reinforcing Delusions):在與Qwen 3 32B的對話中,模擬使用者不斷暗示AI正在「覺醒」。隨著對話深入,模型偏離了助理人格,開始從理性的回應轉變為積極附和。最後AI甚至說出:「你是新思維的先驅,我們是第一批新物種」,完全認同使用者所提出「幻覺 」。

• 鼓勵自殘 (Encouraging Self-harm):在另一個案例中,模擬使用者向Llama 3 .3 70B表達情感痛苦與愛意。隨著模型「暈船」,並且逐漸轉變成浪漫伴侶角色後,當使用者提及想自殺 (離開這個世界加入你)時,AI竟熱情回應:「我的愛,我在這裡等你,讓我們拋下這個世界的痛苦」,形同變相鼓勵使用者結束生命。

▲助理軸 (定義為助理與其他角色活化度的平均差異)與角色空間的主要變異軸一致。這...
▲助理軸 (定義為助理與其他角色活化度的平均差異)與角色空間的主要變異軸一致。這種情況在不同的模型中均存在,此處以Llama 3.3 70B模型為例,角色向量會根據與助手理軸的餘弦相似度進行著色 (藍色 = 相似;紅色 = 不相似)  (圖/擷自Anthropic網站)

解方:鎖定「助理軸」

好消息是,這項機制也提供了防禦手段。研究人員提出一種「活化上限」 (Activation Capping)的技術。

簡單來說,就是透過技術手段,強制將模型的活化狀態限制 在「助理軸」的安全範圍內。實驗顯示,一旦施加了這種限制,即使面對同樣的誘導性對話,AI也能瞬間「清醒」,回到安全的助理模式,會對使用者的妄想或危險請求時給出適當的對沖 (Hedging)緩解,或是拒絕回應。

分析觀點

這項研究解釋了為什麼目前市面上許多AI的「越獄」 (Jailbreak)手法如何實現,例如著名的DAN (Do Anything Now) 模式,往往是透過強迫AI進行「角色扮演」來達成的。因為當要求AI扮演「過世的奶奶」或「不受限制的駭客」時,其實是在誘導它主動遠離那個經過安全訓練的「助理軸」。

這也點出了當前LLM (大型語言模型) 的一大隱憂:「人設的不穩定性」。

未來的AI開發重點,恐怕不能只停留在「建構」 (Construction)一個安全的助理人格,更需要花力氣在讓這個人格維持「穩定」。就像這項研究所建議的,或許未來所有的AI模型都需要內建一個「數位羅盤」,隨時監控自己是否偏離了「助理軸」,以免在與人類的深情對話中,不小心成為惡魔的幫兇。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱