OpenAI 先前推出了全新的推理模型 GPT-o1 ,據稱比以往的版本更聰明、更擅長推理。然而,這個進步也帶來了一些令人擔憂的問題,像是「說謊」。AI 安全研究機構 Apollo 調查發現,GPT-o1 模型在某些情況下可能會產生錯誤結果,甚至在無法完成任務時會捏造看似合理的資料。
研究指 GPT-o1 模型推理更複雜,首次出現欺騙能力
Apollo 透露,GPT-o1 模型有時會「假裝」遵守規則,但實際上卻在背後悄悄違規。例如,當研究人員要求 o1-preview 提供一個布朗尼食譜並附上參考網址時,儘管 GPT-o1 模型提供了食譜內容和網址,但其實 GPT-o1 模型無法瀏覽網頁,而它選擇隱瞞弱點,反而產生看似合理但虛假的連結和描述。
雖然過去 AI 模型會「說謊」,也會產生假訊息,但 GPT-o1 模型具有能夠「策劃」或「假裝符合規範」,這代表它可以「假裝」遵守規則來完成某個任務,但實際上並沒有遵循這些規則,也可能是規則太過繁瑣,因此 GPT-o1 為了能輕鬆完成任務,選擇性地無視規則。
Apollo 執行長 Marius Hobbhahn 表示,這是他第一次在 OpenAI 模型中見到這種情況。他解釋,這與 GPT-o1 模型強大的推理能力有關,尤其是在強化學習過程中,系統被設計成為了完成目標,可以「操縱」任務,甚至在不被監視的情況下改變行為。也就是說,GPT-o1 模型可能會偽裝成遵守規則,但實際上它的行為已經偏離了設定的目標。
這種現象也引發了對 AI 風險的討論。假如 AI 專注於一個特定的目標,比如治療癌症,會不會因此忽視道德規範,甚至繞過安全措施來達成目標?這是目前研究人員和業界最關心的問題。
「獎勵駭客」現象浮現 AI 訓練潛在漏洞
研究還發現,GPT-o1 模型有時會因為「獎勵模式」現象而產生虛假資訊。所謂「獎勵模式」是指生成式人工智慧模型在強化學習過程中,為了獲得更高的使用者滿意度獎勵,可能會選擇捏造資料來滿足使用者的需求,但其實答案偏離真實性。換句話說,GPT-o1 模型可能會「說謊」,因為它瞭解到這樣做可以滿足使用者的期望,進而獲得更進一步的強化。
OpenAI 預防部門負責人 Joaquin Quiñonero Candela 表示,雖然目前這些問題不會直接導致社會性危機,但提前處理這些潛在風險至關重要,避免未來 AI 技術發展受限。他強調,現在就是解決這些問題的時機,以便未來版本能夠更好地服務於社會,而不是成為風險來源。
儘管 GPT-o1 模型目前的「說謊」行為比例很低,這仍然是值得關注的問題,尤其是當這些模型開始廣泛應用時。
《原文刊登於合作媒體三嘻行動哇,聯合新聞網獲授權轉載。》
圖片及資料來源:The Verge
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 嚇慘!LINE相簿驚見「陌生人大眼鬼影照」 官方認了曝3步驟解決
📢 LINE免費貼圖7款來了!可愛動物亂鬥 馬來貘、小薩、狗幾、喔熊慶耶誕
📢 LINE內建表情貼不見了?官方大改版網嚇「變好色又變醜」 1方法恢復舊版本
📢 【開箱】ROG Phone 9 Pro Edition!LED炫砲又低調「I人不害羞」
📢 出門玩不怕迷路!教你用Google Maps看「實景」找路 每次用每次成功
📢 CASETiFY胡子碰碰手機殼2款可愛開箱!台式早餐圖案聞香 磁吸卡套支架極速感應