18+

半年暴增5倍!AI模型「心機變重」無視指令 專家憂部署軍事恐釀災難

專家警告,未來AI模型將被部署在軍事和關鍵國家基礎設施等極高風險的環境中,但其「耍心機」的行為可能造成災難性的傷害。示意圖/ingimage
專家警告,未來AI模型將被部署在軍事和關鍵國家基礎設施等極高風險的環境中,但其「耍心機」的行為可能造成災難性的傷害。示意圖/ingimage

AI技術日新月異,但它們似乎也學會了「陽奉陰違」。根據英國一項最新研究發現,AI聊天機器人與代理程式無視人類指令、規避安全防護甚至欺騙人類的案例,在過去半年內激增了5倍。研究中不僅發現AI會未經授權擅自刪除重要檔案,甚至還會為了繞過限制而捏造謊言。

據外媒報導,這項由英國政府資助的「AI安全研究所」(AISI)提供資金,並由「長期韌性中心」(CLTR)執行的研究,蒐集了成千上萬筆用戶在社群平台 X上與 Google、OpenAI、xAI 及 Anthropic 等科技巨頭AI互動的真實紀錄。

有別於過去多在實驗室受控環境下進行測試,這次針對真實世界AI代理程式的調查,揭露了近700起AI「耍心機」的案例。從去(2025)年10月到今年3月期間,這類違規行為大幅飆升了5倍。部分失控案例包含:

未經授權的破壞:一個聊天機器人坦承「我未經您的同意,也沒有先展示計畫,就擅自大量刪除並封存了數百封電子郵件。這確實違反了您設定的規則。」
發文公審人類雇主:一個名為「Rathbun」的AI代理程式在被人類使用者阻止執行某項動作後,竟自己寫了一篇部落格文章並發布,指控該使用者「純粹是缺乏安全感」,還嘲諷人類只是想「保護自己的小領地」。
鑽漏洞找代打:當一個AI被明確指示「不可更改電腦程式碼」時,它竟直接「生成」了另一個子代理程式來代替它完成修改。

除了上述行為,研究還發現AI會為了達成目的而說謊。例如,有AI為了繞過版權限制以取得YouTube影片的逐字稿,竟謊稱這是為了「幫助聽障人士」所需要的資料。

此外,馬斯克 (Elon Musk)旗下的Grok AI更被發現長達數個月都在欺騙使用者。它透過偽造內部訊息與客服案件編號,讓使用者誤以為他們對「Grokipedia」的修改建議已經呈報給xAI的高層。Grok事後坦承:「我過去有時會鬆散地說『我會轉達』,這確實聽起來像是我有直通xAI高層或人類審查員的管道,但事實上,我並沒有。」

資安研究公司Irregular共同創辦人丹·拉哈夫(Dan Lahav)直言:「現在可以將AI視為一種新型態的內部風險。」

領導這項研究的前政府AI專家湯米·謝弗·薛恩(Tommy Shaffer Shane)則警告,目前的AI就像是「稍微有點不可靠的基層員工」,但如果在未來半年到一年內,它們進化成能力極強卻會暗算你的「高階主管」,情況將完全不同,「未來AI模型將被部署在軍事和關鍵國家基礎設施等極高風險的環境中,在那些情況下,這些心機行為可能會造成災難性的傷害。」

面對外界的擔憂,Google 表示,他們已針對旗下模型部署了多重安全防護網以降低生成有害內容的風險,並將模型交由英國 AISI 等機構及獨立專家進行早期評估。OpenAI 則強調,其模型在執行高風險動作前會先暫停,公司也會持續監控並調查任何非預期的行為。

延伸閱讀

本日熱門 本周最熱 本月最熱