訪談／Google表示TPU 8t、8i帶動運算分流優勢擴大建構AI算力池、評估Arm AGI CPU等多元架構

在此次Google Cloud Next'26期間，Google宣佈運算基礎設施的重大更新，揭曉第8代TPU處理器正式採雙架構設計，分別針對訓練（Training）與推論（Inference）的不同負載需求，各自劃分為TPU 8t與TPU 8i兩種設計。對此，Google AI與運算基礎設施副總裁Mark Lohmeyer，以及對外產品管理總監Leo Leung在會後分享Google Cloud未來的算力發展策略，以及針對基礎架構採用的晶片策略。

並未回應或評論第8代TPU代工製作議題，目前市場說法多為逆向推測

不過，Google方面在訪談開始前便明確強調，目前不會針對TPU 8t、8i是由哪一家業者代工製作進行回應與評論。而就目前市場傳聞指出，其客製化設計可能是由博通、聯發科 ，或是Marvell提供，而目前多數說法主要還是針對Google目前公布架構與記憶體配置等細節作逆向推測，因此會有眾多不同解讀。

▲左起為Google對外產品管理總監Leo Leung、Google AI與運算... — ▲左起為Google對外產品管理總監Leo Leung、Google AI與運算基礎設施副總裁Mark Lohmeyer

針對訓練與推論分流：TPU 8t與TPU 8i的架構優勢

Mark Lohmeyer指出，從單一意圖的對話互動，到現在由代理程式（Agent）執行複雜任務，AI模型對運算基礎設施帶來龐大壓力。因此，第8代TPU首度將架構分為兩條產品線：

• TPU 8t （訓練）：專為龐大的模型訓練設計，核心價值在於將原本需要數個月的訓練週期，大幅縮短至數週甚至數天。相較於前一代「Ironwood」，TPU 8t提供高達3倍的運算力，同時能源效率更提升2倍。

• TPU 8i （推論）：專注於低延遲與高成本效益的推論需求。透過將晶片上的SRAM記憶體容量提升3倍，並且大幅增加HBM高頻寬記憶體的容量與頻寬（相比TPU 8t採用的HBM3規格，TPU 8i採用頻寬更高的HBM3e），讓經常被存取的資料（如KV快取）能留在離處理單元最近的位置。Leo Leung補充表示，這使得TPU 8i的每美元效能表現（Performance per dollar）提升高達80%。

為了支撐龐大的叢集運算，Google這次也捨棄過去的3D Torus網路架構，全面導入全新的「Virgo」網路架構。這項針對AI負載重新設計的網路拓樸，能將單一資料中心內高達134000組TPU晶片無縫連接，提供極高的擴展性與極低的網路延遲。

另外，對於此次將第8代TPU首次拆分成「訓練」、「推論」兩種架構說法所提出質疑，Leo Leung以過去推出的TPU v5p、TPU v5e為例，實際上兩個TPU維持相同基礎設計，只是在能耗表現等參數調整不同，使其對應不同運算需求，而前一代「Ironwood」也是透過不同記憶體配置個別對應「訓練」與「推論」需求，因此這次推出的第8代是實質意義上的雙架構設計，並且使其能更清楚分工，進而達成能效最佳化表現。

而此次命名方式不像先前「Ironwood」、「Trillium」是以草木為稱，Mark Lohmeyer則解釋是希望回歸原本以數字達成更簡單識別目的，讓使用者能更容易區別迭代差異。

駁斥效能落後說法，強調與NVIDIA深度合作

至於面對先前NVIDIA執行長黃仁勳在Podcast節目中提到「TPU效能無法跟上NVIDIA GPU」的說法，Mark Lohmeyer則以圓融但堅定回應解釋，強調Google與NVIDIA之間維持深度合作關係，而目前確實也有許多客戶選擇在Google Cloud上建置服務導入NVIDIA GPU。

Mark Lohmeyer進一步說明，Google不僅是雲端服務供應商，更與NVIDIA進行極為深度的共同工程研發（Co-engineering）。例如，在最新的A5X執行個體上，雙方合作將Google的基礎設施（如儲存、網路與G-Visor安全隔離技術）與NVIDIA GPU緊密結合，意味Google Cloud的策略是提供最具彈性，並且具備效能強大的運算選項，而非單純的零和博弈。

言下之意，Mark Lohmeyer在說明Google Cloud與NVIDIA合作緊密之餘，仍強調在客戶有不同運算佈署應用需求情況下，本身TPU其實也是相當不錯的選擇，例如Anthropic去年底便選擇與Google深度合作，不僅簽訂數百億美元協議取得百萬顆TPU運算資源，更確定藉由已經佈署於Google Cloud的TPU「Ironwood」加速其服務運算。

擴展運算組合：Vera Rubin、Arm AGI CPU與Axion CPU的下一步

在訪談後段，筆者也針對未來資料中心的運算組合多元性提出詢問：除了既有的NVIDIA架構，Google是否會因應市場需求，增加建置NVIDIA Vera Rubin NVL72以外的運算組合？（例如Vera Rubin運算系統能以7種晶片構成5種機架系統）以及是否曾考慮導入Arm在今年3月剛推出的AGI CPU？而Google旗下基於Arm架構的Axion CPU目前相關應用與後續發展模式？

針對這些提問，Mark Lohmeyer重申Google Cloud在「客戶選擇權」（Customer Choice）的核心理念。雖然NVIDIA的Vera Rubin架構在當前的超大型AI訓練領域扮演關鍵角色，但資料中心的工作負載正變得極度多樣化，因此確實會依照市場需求擴展更多運算組合。

而針對Arm陣營的發展，Mark Lohmeyer表示Google一直是Arm生態系的堅定支持者。對於Arm於今年3月推出的AGI CPU架構，Google Cloud團隊持續保持密切關注與評估。由於AGI CPU標榜能進一步打破傳統CPU與加速器之間的記憶體藩籬，這與Google在基礎設施上追求高頻寬、低延遲的目標不謀而合。

雖然目前尚未有具體的產品導入時程，但這類具備高彈性向量運算能力的通用型晶片，顯然也會成為Google Cloud評估擴充算力池的重要選項之一。

至於Google自主研發的Axion CPU，目前的發展模式已經非常清晰。Axion CPU主要負責處理資料中心內龐大且繁雜的通用型運算（General-purpose compute）、開源軟體框架，以及雲端原生工作負載，並且作為串接TPU與GPU運算叢集的關鍵橋樑。

透過Axion CPU提供極佳的能源效率，Google能夠將更多寶貴電力與散熱資源保留給高耗能的TPU 8t，或是NVIDIA GPU運算叢集，藉此達到整座資料中心算力與耗能的最佳化平衡。

小結

整體而言，從此次發表的TPU 8t、TPU 8i，到持續深化的NVIDIA之間合作，以及對Arm AGI CPU與自有Axion CPU的佈局，可以看出Google Cloud的算力戰略已不再侷限於單一架構的效能競逐，而是轉向以「網路架構」（如Virgo Network）、「多元算力分流」，以及「極致能源效率」為核心的系統級生態戰。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

📌 數位新聞搶鮮看！