18+

顛覆傳統語言模型架構!Google推出「DiffusionGemma」文字擴散模型,本地推論速度狂飆4倍

AI重點

文章重點整理:

  • 重點一:Google推出DiffusionGemma,改以文字擴散機制生成內容。
  • 重點二:模型採Apache 2.0開源,可從Hugging Face下載權重。
  • 重點三:本地推論速度較自迴歸模型提升約四倍,適合AI PC

在當前由GPT與Gemini等自迴歸模型 (Autoregressive Model)主導的生成式AI戰場中,Google 再次投下一顆震撼彈。Google宣布推出全新的開放式AI模型「DiffusionGemma」。有別於傳統文字生成方式,DiffusionGemma大膽採用「文字擴散機制」 (Text Diffusion),不僅解決裝置端硬體頻寬受限的情形,更讓本地AI推論速度一舉飆升4倍之多。

目前,這款模型已經採用對開發者極度友善的Apache 2.0授權條款開源,使用者可直接從開源社群平台Hugging Face下載模型權重。

告別「逐字吐出」的瓶頸:擴散模型如何顛覆文字生成?

要理解DiffusionGemma的突破,必須先了解目前主流大型語言模型 (LLM)的運作限制:

• 傳統自迴歸模型 (如GPT、Gemini):運作邏輯是由左至右、逐一生成Tokens。這種架構雖然在雲端伺服器進行批次處理時效率極高,但如果放到一般用戶的本地端裝置上運作,就會嚴重受限於「記憶體 頻寬」,導致龐大的運算資源被閒置浪費。

• DiffusionGemma擴散模型:借鑑AI繪圖 (如Midjourney、Stable Diffusion)中常見的「從雜訊中逐步去噪」概念。它不再逐字生成,而是平行處理所有的 Token,逐步優化整段輸出的品質,使其在低頻寬的本地運算環境下,展現出壓倒性的速度優勢。

官方數據顯示,DiffusionGemma的採樣速度可達驚人的每秒1479個Tokens,而且初始開銷僅需0.84秒。此外,由於擴散模型的特性,它支援「迭代優化」,能在生成過程中主動自我糾正錯誤,確保輸出的文句更加穩定且一致。

強悍的數理與程式能力,但科學邏輯仍有進步空間

在整體能力上,DiffusionGemma的表現與同門的Gemma 4模型相當,但在特定領域的基準測試中,甚至能與主打輕量高效的Gemini 2.0 Flash-Lite互有勝負:

• 程式與數學表現亮眼:在程式碼生成方面,HumanEval測試高達89.6%、BigCodeBench達45.4%、LiveCodeBench也有30.9%的水準。而在數學能力指標AIME 2025中,更以23.3%的成績超越對比模型的20.0%,充分展現擴散架構在數理推論上的巨大潛力。

• 部分領域仍存短板:儘管在數理與程式表現優異,但DiffusionGemma在科學推理 (GPQA Diamond)上僅獲得40.4% (對比模型則為56.5%),在困難推理指標 (BIG-Bench Extra Hard)上也僅有15.0%,落後於對手的21.0%,凸顯擴散模型在處理極端複雜的常識邏輯推演時,仍需進一步的架構微調。

NVIDIA硬體深度加持,榨出GPU平行運算極限

這項顛覆性的架構,立即獲得當前AI霸主NVIDIA的背書。NVIDIA在官方部落格中指出,DiffusionGemma的擴散設計,能最完美地釋放、發揮NVIDIA GPU中的Tensor Core平行運算能力。

根據NVIDIA的實測數據:

• 單張H100 GPU:生成速度可達每秒1000個Tokens。

• DGX Station:可狂飆至每秒2000個Tokens。

• DGX Spark:維持每秒150個Tokens的高效能。

在同等的硬體測試條件下,DiffusionGemma的本地推論效率,大約是傳統自迴歸模型的4倍。

打通AI PC的任督二脈,邊緣運算的終極殺手鐧

從DiffusionGemma的發表,可以看出Google正在為接下來的「邊緣運算」與「AI PC」大戰佈局。

過去這兩年,各大筆電廠與晶片商 (包含Intel、AMD、Qualcomm)雖然都在猛推NPU算力高達40、50 TOPS的AI PC,但消費者買回家後卻發現,要在本地端流暢跑起一個稍微聰明一點的大型語言模型,依然會因為「記憶體頻寬不足」而卡頓連連,最終還是得連上雲端求助ChatGPT。

Google將「擴散模型」的概念從生圖轉移到「文字生成」,透過平行處理的特性,DiffusionGemma完美避開裝置端記憶體頻寬的限制,直接榨乾GPU/NPU的核心算力。可以預見,在未來的AI PC,甚至高階智慧型手機上,這種「文字擴散模型」將會成為裝置端AI助理的最佳解決方案,真正落實「斷網也能順跑強大AI」的產業願景。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

精華 FAQ

  • 它把影像擴散模型的去噪概念移植到文字生成,不再逐字輸出,而是平行處理整段Token,藉由反覆修正提升效率,特別適合本地端低頻寬環境。

  • 官方數據顯示採樣速度可達每秒1479個Tokens,初始開銷僅0.84秒;NVIDIA則稱其在H100、DGX等平台可充分發揮Tensor Core平行運算優勢。

  • DiffusionGemma在程式與數學測試表現亮眼,部分指標甚至優於對照模型;但在GPQA Diamond與BIG-Bench Extra Hard等科學和困難推理任務上仍落後,顯示仍需調校。

延伸閱讀

效能越級打怪!Google推出全新Gemma 4開放權重模型 賦予開發者真正的「數位主權」

效能「越級打怪」!Google推出基於Gemini 3架構的Gemma 4開源模型 首度擁抱Apache 2.0授權

Google發表具備強大「代理行動」能力的Gemini 3.5系列模型 Gemini 3.5 Flash首發登場

突破「記憶體之牆」!傳Google攜手Marvell打造第8代TPU與全新「MPU」協同處理器

本日熱門 本周最熱 本月最熱