AI重點
文章重點整理:
- 重點一:Google推出DiffusionGemma,改以文字擴散機制生成內容。
- 重點二:模型採Apache 2.0開源,可從Hugging Face下載權重。
- 重點三:本地推論速度較自迴歸模型提升約四倍,適合AI PC
在當前由GPT與Gemini等自迴歸模型 (Autoregressive Model)主導的生成式AI戰場中,Google 再次投下一顆震撼彈。Google宣布推出全新的開放式AI模型「DiffusionGemma」。有別於傳統文字生成方式,DiffusionGemma大膽採用「文字擴散機制」 (Text Diffusion),不僅解決裝置端硬體頻寬受限的情形,更讓本地AI推論速度一舉飆升4倍之多。
目前,這款模型已經採用對開發者極度友善的Apache 2.0授權條款開源,使用者可直接從開源社群平台Hugging Face下載模型權重。
告別「逐字吐出」的瓶頸:擴散模型如何顛覆文字生成?
要理解DiffusionGemma的突破,必須先了解目前主流大型語言模型 (LLM)的運作限制:
• 傳統自迴歸模型 (如GPT、Gemini):運作邏輯是由左至右、逐一生成Tokens。這種架構雖然在雲端伺服器進行批次處理時效率極高,但如果放到一般用戶的本地端裝置上運作,就會嚴重受限於「記憶體 頻寬」,導致龐大的運算資源被閒置浪費。
• DiffusionGemma擴散模型:借鑑AI繪圖 (如Midjourney、Stable Diffusion)中常見的「從雜訊中逐步去噪」概念。它不再逐字生成,而是平行處理所有的 Token,逐步優化整段輸出的品質,使其在低頻寬的本地運算環境下,展現出壓倒性的速度優勢。
官方數據顯示,DiffusionGemma的採樣速度可達驚人的每秒1479個Tokens,而且初始開銷僅需0.84秒。此外,由於擴散模型的特性,它支援「迭代優化」,能在生成過程中主動自我糾正錯誤,確保輸出的文句更加穩定且一致。
強悍的數理與程式能力,但科學邏輯仍有進步空間
在整體能力上,DiffusionGemma的表現與同門的Gemma 4模型相當,但在特定領域的基準測試中,甚至能與主打輕量高效的Gemini 2.0 Flash-Lite互有勝負:
• 程式與數學表現亮眼:在程式碼生成方面,HumanEval測試高達89.6%、BigCodeBench達45.4%、LiveCodeBench也有30.9%的水準。而在數學能力指標AIME 2025中,更以23.3%的成績超越對比模型的20.0%,充分展現擴散架構在數理推論上的巨大潛力。
• 部分領域仍存短板:儘管在數理與程式表現優異,但DiffusionGemma在科學推理 (GPQA Diamond)上僅獲得40.4% (對比模型則為56.5%),在困難推理指標 (BIG-Bench Extra Hard)上也僅有15.0%,落後於對手的21.0%,凸顯擴散模型在處理極端複雜的常識邏輯推演時,仍需進一步的架構微調。
NVIDIA硬體深度加持,榨出GPU平行運算極限
這項顛覆性的架構,立即獲得當前AI霸主NVIDIA的背書。NVIDIA在官方部落格中指出,DiffusionGemma的擴散設計,能最完美地釋放、發揮NVIDIA GPU中的Tensor Core平行運算能力。
根據NVIDIA的實測數據:
• 單張H100 GPU:生成速度可達每秒1000個Tokens。
• DGX Station:可狂飆至每秒2000個Tokens。
• DGX Spark:維持每秒150個Tokens的高效能。
在同等的硬體測試條件下,DiffusionGemma的本地推論效率,大約是傳統自迴歸模型的4倍。
打通AI PC的任督二脈,邊緣運算的終極殺手鐧
從DiffusionGemma的發表,可以看出Google正在為接下來的「邊緣運算」與「AI PC」大戰佈局。
過去這兩年,各大筆電廠與晶片商 (包含Intel、AMD、Qualcomm)雖然都在猛推NPU算力高達40、50 TOPS的AI PC,但消費者買回家後卻發現,要在本地端流暢跑起一個稍微聰明一點的大型語言模型,依然會因為「記憶體頻寬不足」而卡頓連連,最終還是得連上雲端求助ChatGPT。
Google將「擴散模型」的概念從生圖轉移到「文字生成」,透過平行處理的特性,DiffusionGemma完美避開裝置端記憶體頻寬的限制,直接榨乾GPU/NPU的核心算力。可以預見,在未來的AI PC,甚至高階智慧型手機上,這種「文字擴散模型」將會成為裝置端AI助理的最佳解決方案,真正落實「斷網也能順跑強大AI」的產業願景。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
精華 FAQ
-
它把影像擴散模型的去噪概念移植到文字生成,不再逐字輸出,而是平行處理整段Token,藉由反覆修正提升效率,特別適合本地端低頻寬環境。
-
官方數據顯示採樣速度可達每秒1479個Tokens,初始開銷僅0.84秒;NVIDIA則稱其在H100、DGX等平台可充分發揮Tensor Core平行運算優勢。
-
DiffusionGemma在程式與數學測試表現亮眼,部分指標甚至優於對照模型;但在GPQA Diamond與BIG-Bench Extra Hard等科學和困難推理任務上仍落後,顯示仍需調校。
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 WWDC 2026看這篇就懂!3分鐘掌握Apple最重要3大更新亮點
📢 WWDC 2026除了AI…iOS 27還有7大寶藏功能:鬧鐘音量終於獨立
📢iPhone Fold「最清楚」實機照曝光!蘋果摺疊機改護照式大小、剩1種顏色
📢 LINE免費貼圖7款!日文諧音哏「鼠咪嗎誰」必用 吉娃娃配GUCCI超迷因
📢小米空氣淨化器6開箱!過濾細菌、病毒、甲醛汙染源 過敏族殺菌高CP
📢 舊Apple Watch真的要丟了!Watch OS 27完整支援名單 連旗艦款都說掰掰

討論區