Elon Musk 旗下的人工智慧 公司 xAI 採突襲戰術,悄然上線了全新的 Grok 4.1 模型系列。此次更新分為標準版的 Grok 4 .1 ,以及支援深度推理的 Grok 4.1 Thinking,兩者目前均向使用者免費開放。
LMArena 霸榜前二,施壓 Google Gemini
在 LMArena 排行榜中,Grok 4.1 Thinking 以 1483 Elo 分的成績強勢空降榜首,而切換至非推理模式的標準版 Grok 4.1 也緊隨其後殺入第二名。
值得注意的是,原先表現不俗的 Google Gemini 2.5 Pro 目前滑落至第三,與榜首的 Grok 4.1 Thinking 相差足足 31 分。此舉無疑給 Google 即將推出的 Gemini 3.0 帶來了不小的競爭壓力。
創意寫作能力躍進,僅次 GPT 5.1
新版模型 在創意寫作能力上也有顯著提升,根據 Creative Writing v3 的跑分結果,Grok 4.1 Thinking 與 Grok 4.1 的表現僅次於 OpenAI 的 GPT 5.1,成功擊敗包含 OpenAI o3、Claude Sonnet 4.5 ,以及 Kimi K2 Instruct 等強勁對手。
幻覺大幅降低,資訊錯誤率減 7 成
除了效能與創作力,xAI 也大幅優化了模型的準確性。數據顯示,相較於前一代的 Grok 4 Fast,Grok 4.1 的資訊錯誤率大幅下降了約 7 成。在 AI 容易出現的「幻覺」 (hallucination) 問題上,發生機率也從原先的 12.09% 顯著降低至 4.22%,大幅提升了其實用性與可靠度。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 eneloop充電電池開箱!實測高續航力ㄅ級分 絕配富士instax mini 41 拍立得
📢 便宜資費懶人包/5G 399元比4G便宜 新方案「每月加100」上網升級
📢 三星爆有4款新摺疊機!神祕新機型號現身 傳為平價Galaxy Z Fold8 FE
📢 LINE免費貼圖!報稅「錢錢再見」、PASS拒絕哏圖好用 還有蠟筆小新快下載
📢 買預付卡出國漫遊…回國竟涉詐欺案 釣出一票人「忽略SIM卡1事」全中獎
📢 懶人包/預付卡有使用期限嗎?出國漫遊用完SIM卡可丟嗎?QA一次看

討論區