18+

訪談/Google表示TPU 8t、8i帶動運算分流優勢 擴大建構AI算力池、評估Arm AGI CPU等多元架構

▲第8代TPU處理器正式採雙架構設計,分別針對訓練 (Training) 與推論 (Inference)的不同負載需求,各自劃分為TPU 8t與TPU 8i兩種設計
▲第8代TPU處理器正式採雙架構設計,分別針對訓練 (Training) 與推論 (Inference)的不同負載需求,各自劃分為TPU 8t與TPU 8i兩種設計

在此次Google Cloud Next'26期間,Google宣佈運算基礎設施的重大更新,揭曉第8代TPU處理器正式採雙架構設計,分別針對訓練 (Training) 與推論 (Inference)的不同負載需求,各自劃分為TPU 8t與TPU 8i兩種設計。對此,Google AI與運算基礎設施副總裁Mark Lohmeyer,以及對外產品管理總監Leo Leung在會後分享Google Cloud未來的算力發展策略,以及針對基礎架構採用的晶片策略。

並未回應或評論第8代TPU代工 製作議題,目前市場說法多為逆向推測

不過,Google方面在訪談開始前便明確強調,目前不會針對TPU 8t、8i是由哪一家業者代工製作進行回應與評論。而就目前市場傳聞指出,其客製化設計可能是由博通、聯發科 ,或是Marvell提供,而目前多數說法主要還是針對Google目前公布架構與記憶體配置等細節作逆向推測,因此會有眾多不同解讀。

▲左起為Google對外產品管理總監Leo Leung、Google AI與運算...
▲左起為Google對外產品管理總監Leo Leung、Google AI與運算基礎設施副總裁Mark Lohmeyer

針對訓練與推論分流:TPU 8t與TPU 8i的架構優勢

Mark Lohmeyer指出,從單一意圖的對話互動,到現在由代理程式 (Agent)執行複雜任務,AI模型對運算基礎設施帶來龐大壓力。因此,第8代TPU首度將架構分為兩條產品線:

• TPU 8t (訓練):專為龐大的模型訓練設計,核心價值在於將原本需要數個月的訓練週期,大幅縮短至數週甚至數天。相較於前一代「Ironwood」,TPU 8t提供高達3倍的運算力,同時能源效率更提升2倍。

• TPU 8i (推論):專注於低延遲與高成本效益的推論需求。透過將晶片上的SRAM記憶體容量提升3倍,並且大幅增加HBM高頻寬記憶體的容量與頻寬 (相比TPU 8t採用的HBM3規格,TPU 8i採用頻寬更高的HBM3e),讓經常被存取的資料 (如KV快取)能留在離處理單元最近的位置。Leo Leung補充表示,這使得TPU 8i的每美元效能表現 (Performance per dollar)提升高達80%。

為了支撐龐大的叢集運算,Google這次也捨棄過去的3D Torus網路架構,全面導入全新的「Virgo」網路架構。這項針對AI負載重新設計的網路拓樸,能將單一資料中心內高達134000組TPU晶片無縫連接,提供極高的擴展性與極低的網路延遲。

另外,對於此次將第8代TPU首次拆分成「訓練」、「推論」兩種架構說法所提出質疑,Leo Leung以過去推出的TPU v5p、TPU v5e為例,實際上兩個TPU維持相同基礎設計,只是在能耗表現等參數調整不同,使其對應不同運算需求,而前一代「Ironwood」也是透過不同記憶體配置個別對應「訓練」與「推論」需求,因此這次推出的第8代是實質意義上的雙架構設計,並且使其能更清楚分工,進而達成能效最佳化表現。

而此次命名方式不像先前「Ironwood」、「Trillium」是以草木為稱,Mark Lohmeyer則解釋是希望回歸原本以數字達成更簡單識別目的,讓使用者能更容易區別迭代差異。

駁斥效能落後說法,強調與NVIDIA深度合作

至於面對先前NVIDIA執行長黃仁勳在Podcast節目中提到「TPU效能無法跟上NVIDIA GPU」的說法,Mark Lohmeyer則以圓融但堅定回應解釋,強調Google與NVIDIA之間維持深度合作關係,而目前確實也有許多客戶選擇在Google Cloud上建置服務導入NVIDIA GPU。

Mark Lohmeyer進一步說明,Google不僅是雲端服務供應商,更與NVIDIA進行極為深度的共同工程研發 (Co-engineering)。例如,在最新的A5X執行個體上,雙方合作將Google的基礎設施 (如儲存、網路與G-Visor安全隔離技術)與NVIDIA GPU緊密結合,意味Google Cloud的策略是提供最具彈性,並且具備效能強大的運算選項,而非單純的零和博弈。

言下之意,Mark Lohmeyer在說明Google Cloud與NVIDIA合作緊密之餘,仍強調在客戶有不同運算佈署應用需求情況下,本身TPU其實也是相當不錯的選擇,例如Anthropic去年底便選擇與Google深度合作,不僅簽訂數百億美元協議取得百萬顆TPU運算資源,更確定藉由已經佈署於Google Cloud的TPU「Ironwood」加速其服務運算。

擴展運算組合:Vera Rubin、Arm AGI CPU與Axion CPU的下一步

在訪談後段,筆者也針對未來資料中心的運算組合多元性提出詢問:除了既有的NVIDIA架構,Google是否會因應市場需求,增加建置NVIDIA Vera Rubin NVL72以外的運算組合? (例如Vera Rubin運算系統能以7種晶片構成5種機架系統)以及是否曾考慮導入Arm在今年3月剛推出的AGI CPU?而Google旗下基於Arm架構的Axion CPU目前相關應用與後續發展模式?

針對這些提問,Mark Lohmeyer重申Google Cloud在「客戶選擇權」 (Customer Choice)的核心理念。雖然NVIDIA的Vera Rubin架構在當前的超大型AI訓練領域扮演關鍵角色,但資料中心的工作負載正變得極度多樣化,因此確實會依照市場需求擴展更多運算組合。

而針對Arm陣營的發展,Mark Lohmeyer表示Google一直是Arm生態系的堅定支持者。對於Arm於今年3月推出的AGI CPU架構,Google Cloud團隊持續保持密切關注與評估。由於AGI CPU標榜能進一步打破傳統CPU與加速器之間的記憶體藩籬,這與Google在基礎設施上追求高頻寬、低延遲的目標不謀而合。

雖然目前尚未有具體的產品導入時程,但這類具備高彈性向量運算能力的通用型晶片,顯然也會成為Google Cloud評估擴充算力池的重要選項之一。

至於Google自主研發的Axion CPU,目前的發展模式已經非常清晰。Axion CPU主要負責處理資料中心內龐大且繁雜的通用型運算 (General-purpose compute)、開源軟體框架,以及雲端原生工作負載,並且作為串接TPU與GPU運算叢集的關鍵橋樑。

▲Axion CPU主要負責處理資料中心內龐大且繁雜的通用型運算 (Genera...
▲Axion CPU主要負責處理資料中心內龐大且繁雜的通用型運算 (General-purpose compute)、開源軟體框架,以及雲端原生工作負載,並且作為串接TPU與GPU運算叢集的關鍵橋樑

透過Axion CPU提供極佳的能源效率,Google能夠將更多寶貴電力與散熱資源保留給高耗能的TPU 8t,或是NVIDIA GPU運算叢集,藉此達到整座資料中心算力與耗能的最佳化平衡。

小結

整體而言,從此次發表的TPU 8t、TPU 8i,到持續深化的NVIDIA之間合作,以及對Arm AGI CPU與自有Axion CPU的佈局,可以看出Google Cloud的算力戰略已不再侷限於單一架構的效能競逐,而是轉向以「網路架構」 (如Virgo Network)、「多元算力分流」,以及「極致能源效率」為核心的系統級生態戰。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱