Q1：DiffusionGemma最核心的架構創新是什麼？

它把影像擴散模型的去噪概念移植到文字生成，不再逐字輸出，而是平行處理整段Token，藉由反覆修正提升效率，特別適合本地端低頻寬環境。

Q2：官方與NVIDIA如何描述它的推論效能？

官方數據顯示採樣速度可達每秒1479個Tokens，初始開銷僅0.84秒；NVIDIA則稱其在H100、DGX等平台可充分發揮Tensor Core平行運算優勢。

Q3：這款模型在哪些能力強，哪些地方仍有不足？

DiffusionGemma在程式與數學測試表現亮眼，部分指標甚至優於對照模型；但在GPQA Diamond與BIG-Bench Extra Hard等科學和困難推理任務上仍落後，顯示仍需調校。

顛覆傳統語言模型架構！Google推出「DiffusionGemma」文字擴散模型，本地推論速度狂飆4倍 | AI浪潮

顛覆傳統語言模型架構！Google推出「DiffusionGemma」文字擴散模型，本地推論速度狂飆4倍

2026-06-12 08:35

聯合新聞網／ 楊又肇

AI重點

文章重點整理：

重點一：Google推出DiffusionGemma，改以文字擴散機制生成內容。
重點二：模型採Apache 2.0開源，可從Hugging Face下載權重。
重點三：本地推論速度較自迴歸模型提升約四倍，適合AI PC

在當前由GPT與Gemini等自迴歸模型 (Autoregressive Model)主導的生成式AI戰場中，Google 再次投下一顆震撼彈。Google宣布推出全新的開放式AI模型「DiffusionGemma」。有別於傳統文字生成方式，DiffusionGemma大膽採用「文字擴散機制」 (Text Diffusion)，不僅解決裝置端硬體頻寬受限的情形，更讓本地AI推論速度一舉飆升4倍之多。

目前，這款模型已經採用對開發者極度友善的Apache 2.0授權條款開源，使用者可直接從開源社群平台Hugging Face下載模型權重。

告別「逐字吐出」的瓶頸：擴散模型如何顛覆文字生成？

要理解DiffusionGemma的突破，必須先了解目前主流大型語言模型 (LLM)的運作限制：

• 傳統自迴歸模型 (如GPT、Gemini)：運作邏輯是由左至右、逐一生成Tokens。這種架構雖然在雲端伺服器進行批次處理時效率極高，但如果放到一般用戶的本地端裝置上運作，就會嚴重受限於「記憶體 頻寬」，導致龐大的運算資源被閒置浪費。

• DiffusionGemma擴散模型：借鑑AI繪圖 (如Midjourney、Stable Diffusion)中常見的「從雜訊中逐步去噪」概念。它不再逐字生成，而是平行處理所有的 Token，逐步優化整段輸出的品質，使其在低頻寬的本地運算環境下，展現出壓倒性的速度優勢。

官方數據顯示，DiffusionGemma的採樣速度可達驚人的每秒1479個Tokens，而且初始開銷僅需0.84秒。此外，由於擴散模型的特性，它支援「迭代優化」，能在生成過程中主動自我糾正錯誤，確保輸出的文句更加穩定且一致。

強悍的數理與程式能力，但科學邏輯仍有進步空間

在整體能力上，DiffusionGemma的表現與同門的Gemma 4模型相當，但在特定領域的基準測試中，甚至能與主打輕量高效的Gemini 2.0 Flash-Lite互有勝負：

• 程式與數學表現亮眼：在程式碼生成方面，HumanEval測試高達89.6%、BigCodeBench達45.4%、LiveCodeBench也有30.9%的水準。而在數學能力指標AIME 2025中，更以23.3%的成績超越對比模型的20.0%，充分展現擴散架構在數理推論上的巨大潛力。

• 部分領域仍存短板：儘管在數理與程式表現優異，但DiffusionGemma在科學推理 (GPQA Diamond)上僅獲得40.4% (對比模型則為56.5%)，在困難推理指標 (BIG-Bench Extra Hard)上也僅有15.0%，落後於對手的21.0%，凸顯擴散模型在處理極端複雜的常識邏輯推演時，仍需進一步的架構微調。

NVIDIA硬體深度加持，榨出GPU平行運算極限

這項顛覆性的架構，立即獲得當前AI霸主NVIDIA的背書。NVIDIA在官方部落格中指出，DiffusionGemma的擴散設計，能最完美地釋放、發揮NVIDIA GPU中的Tensor Core平行運算能力。

根據NVIDIA的實測數據：

• 單張H100 GPU：生成速度可達每秒1000個Tokens。

• DGX Station：可狂飆至每秒2000個Tokens。

• DGX Spark：維持每秒150個Tokens的高效能。

在同等的硬體測試條件下，DiffusionGemma的本地推論效率，大約是傳統自迴歸模型的4倍。

打通AI PC的任督二脈，邊緣運算的終極殺手鐧

從DiffusionGemma的發表，可以看出Google正在為接下來的「邊緣運算」與「AI PC」大戰佈局。

過去這兩年，各大筆電廠與晶片商 (包含Intel、AMD、Qualcomm)雖然都在猛推NPU算力高達40、50 TOPS的AI PC，但消費者買回家後卻發現，要在本地端流暢跑起一個稍微聰明一點的大型語言模型，依然會因為「記憶體頻寬不足」而卡頓連連，最終還是得連上雲端求助ChatGPT。

Google將「擴散模型」的概念從生圖轉移到「文字生成」，透過平行處理的特性，DiffusionGemma完美避開裝置端記憶體頻寬的限制，直接榨乾GPU/NPU的核心算力。可以預見，在未來的AI PC，甚至高階智慧型手機上，這種「文字擴散模型」將會成為裝置端AI助理的最佳解決方案，真正落實「斷網也能順跑強大AI」的產業願景。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

精華 FAQ

Q1：DiffusionGemma最核心的架構創新是什麼？

它把影像擴散模型的去噪概念移植到文字生成，不再逐字輸出，而是平行處理整段Token，藉由反覆修正提升效率，特別適合本地端低頻寬環境。
Q2：官方與NVIDIA如何描述它的推論效能？

官方數據顯示採樣速度可達每秒1479個Tokens，初始開銷僅0.84秒；NVIDIA則稱其在H100、DGX等平台可充分發揮Tensor Core平行運算優勢。
Q3：這款模型在哪些能力強，哪些地方仍有不足？

DiffusionGemma在程式與數學測試表現亮眼，部分指標甚至優於對照模型；但在GPQA Diamond與BIG-Bench Extra Hard等科學和困難推理任務上仍落後，顯示仍需調校。