18+

Google推出全新「FACTS」基準測試專抓AI說謊!最強模型準確率不滿七成

隨著生成AI (Generative AI) 應用日益普及,大型語言模型 (LLM) 最令人頭痛的「幻覺」 (Hallucination)問題——即AI一本正經地胡說八道,始終是業界極力想解決的痛點。為了更精確量化AI到底「有多誠實」,Google聯合旗下的Google DeepMind、Google Cloud與Kaggle團隊,發表一套名為FACTS (Factuality Assessment for Contemporary Text Synthesis,當代文本綜合事實性評估) 的全新評估基準

這套被視為AI真實性「終極考試」的基準,不僅測試單純的問答,更涵蓋了圖像理解與工具使用。值得關注的是,即便是目前帳面數據最強的Gemini 3 Pro,在此測試中的平均準確率也僅約69%,顯示現階段AI距離「完全可信」仍有一段不小的差距。

四大關卡:不僅要會答,還要「知之為知之」

不同於傳統僅針對文本生成的測試,FACTS基準由四個針對不同能力的子測試組成,宛如一場全方位的AI體檢:

• M-FACTS (多模態測試):考驗AI的「眼力」與知識結合能力。例如給AI看一張特定型號的火車照片,不僅要能辨識型號,還要能回答該型號的製造年份等深層資訊,而非僅描述圖片外觀。

• P-FACTS (參數化測試):這是純粹的「隨堂考」。AI必須在不聯網的情況下,僅憑訓練時內建的知識庫回答困難問題。Google特別採用「對抗性篩選」,只保留那些現有模型容易答錯的題目,確保鑑別度。

• S-FACTS (搜尋 測試):模擬AI作為代理人 (Agent) 的能力。AI必須懂得自行拆解複雜問題 (例如:「某編劇最早發行的電影是哪部?」),執行多次搜尋,並且整合資訊。

• D-FACTS (文檔理解測試):測驗AI的「忠實度」。給定一份文件,AI必須嚴格根據內容回答,嚴禁「腦補」添加文檔中未提及的資訊。

評測結果:Gemini 3 Pro險勝,GPT-5 展現「誠實的無知」

在導入雙重自動評判機制 (由AI裁判員檢查核心事實覆蓋率與矛盾性)後,測試結果顯示目前市面上的頂級模型仍有約30%的錯誤率。

而Google自家的Gemini 3 Pro以68.8%的準確率位居榜首,其次是Gemini 2.5 Pro (62.1%) 與OpenAI的GPT-5 (61.8%)。

有趣的是,測試揭露了不同模型的「性格」差異。Gemini系列傾向於提供詳盡的資訊 (寧可多說),但在多模態測試中有時會因此夾雜不精確的內容;而GPT-5與Claude 系列則表現出「精準至上」的特質,遇到不確定的問題傾向於承認「不知道」或拒絕回答。這種「誠實的無知」 (Honest Ignorance) 在某些專業場景下,反而比強行回答更有價值。

分析觀點:建立AI的「信賴指標」

筆者認為,Google此時推出FACTS基準,其戰略意義在於重新定義AI競賽的規則。

過去兩年,各家大廠多半在比拚模型參數大小、生成速度或是多模態的應用廣度。但隨著AI開始進入醫療、法律與企業決策等嚴肅領域,「正確性」與「可信度」將成為下一階段的決勝關鍵。

FACTS基準的出現,就像是為AI產業制定了一套更嚴格的安規測試。69%的準確率雖然看起來不高,但也真實反映了LLM本質上仍是機率模型的事實。

對於開發者而言,這提供了一個明確的優化方向 (例如改善搜尋策略或增強拒答機制);對於使用者來說,未來在選擇AI工具時,除了看它「多會寫」,更要看它「多誠實」。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱