18+

專為「代理人企業」打造的AI超級電腦!Google解析第8代TPU雙架構與Virgo全新網路技術細節

▲Google揭曉採取「訓練」與「推論」雙軌並進的第8代TPU雙架構設計,區分為針對訓練使用的TPU 8t,以及對應龐大推論使用的TPU 8i
▲Google揭曉採取「訓練」與「推論」雙軌並進的第8代TPU雙架構設計,區分為針對訓練使用的TPU 8t,以及對應龐大推論使用的TPU 8i

Google Cloud Next'26大會上,除了光鮮亮麗的軟體應用與代理人平台外,支撐這一切服務運作的底層硬體同樣迎接巨大的技術躍進。Google資深副總裁暨AI與基礎設施技術長Amin Vahdat深入剖析此次更新、專為嚴苛AI負載量身打造的「AI超級電腦 」 (AI Hypercomputer)架構。

其中,最受矚目的是Google揭曉採取「訓練」與「推論」雙軌並進的第8代TPU雙架構設計,區分為針對訓練使用的TPU 8t,以及對應龐大推論使用的TPU 8i,另外也針對企業用戶佈署需求將率先導入NVIDIA 最新推出的Vera Rubin NVL72 (VR200)系統,同時更結合全新發表的Virgo網路系統架構與具備語意理解的智慧儲存系統 (Smart Storage),Google宣告雲端算力戰場已經正式從單純的「晶片比拼」,晉升為運算、儲存與網路高度整合的「系統戰」。

算力核心:第8代TPU「精準分工」,將首發採用NVIDIA Vera Rubin加速系統

為了提供業界最廣泛的運算選擇,Google這次在自研TPU張量加速器採取精準的「分工策略」:

• TPU 8t (為極致訓練而生):採用突破性的跨晶片互連 (ICI)技術,能在單一超級叢集 (Superpod)中擴展至驚人的9600顆TPU 8t,並且共享高達2PB的HBM高頻寬記憶體。相比前代「Ironwood」,TPU 8t的運算能力大幅提升3倍,每瓦效能 (Performance/Watt)也提升高達2倍。

▲相比前代「Ironwood」,TPU 8t的運算能力大幅提升3倍,每瓦效能 (...
▲相比前代「Ironwood」,TPU 8t的運算能力大幅提升3倍,每瓦效能 (Performance/Watt)也提升高達2倍

▲採用突破性的跨晶片互連 (ICI)技術,能在單一超級叢集 (Superpod)...
▲採用突破性的跨晶片互連 (ICI)技術,能在單一超級叢集 (Superpod)中擴展至驚人的9600顆TPU 8t

• TPU 8i (為百萬級推論而生):面對代理人時代海量的即時推論需求,TPU 8i採用全新的「Boardfly拓撲結構」,能在單一運算叢集 (Pod)中直接連接1152顆TPU 8i,並且在288GB的HBM高頻寬記憶體的設計中,額外加入384MB的SRAM靜態隨機存取記憶體,在具備低延遲存取效能特性,並且維持高耐用度特性與低成本建置之下,讓記憶體容量大幅提升3倍,使龐大的KV快取資料能完全放置於記憶體內,不僅能實現近乎零延遲的執行反應速度,更讓推論運作的性價比 (Performance per dollar)相比前代TPU增加80%。

▲TPU 8i是針對推論需求打造,目標讓推論執行運算背後成本能大幅降低
▲TPU 8i是針對推論需求打造,目標讓推論執行運算背後成本能大幅降低

▲TPU 8i採用全新的「Boardfly拓撲結構」,能在單一運算叢集 (Pod...
▲TPU 8i採用全新的「Boardfly拓撲結構」,能在單一運算叢集 (Pod)中直接連接1152顆TPU 8i

而在擁抱自研晶片的同時,Google也強調在提供企業客戶有更多選擇考量下,同樣與NVIDIA維持緊密合作,除了既有的Hopper、Blackwell架構執行個體,更宣布將成為首批提供NVIDIA Vera Rubin NVL72系統的雲端服務商。

▲Google表示將成為首批提供NVIDIA Vera Rubin NVL72系...
▲Google表示將成為首批提供NVIDIA Vera Rubin NVL72系統的雲端服務商

此外,去年推出主打高性價比的Google自研Arm架構 CPU「Axion」,去年11月也已經正式應用在N4A執行個體,將針對AI代理的日常維運需求,提供強大且節能的運算後盾。

▲Google以Arm架構打造的「Axion」CPU目前已經用於N4A執行個體
▲Google以Arm架構打造的「Axion」CPU目前已經用於N4A執行個體

打通任督二脈:Virgo網路系統與智慧儲存系統

有了頂尖的運算大腦,還需要強大的神經網路與記憶庫。

在網路傳輸層面,Google推出了全新專為AI最佳化的Virgo網路系統架構,主要負責將NVIDIA Vera Rubin NVL72,或是TPU 8t超級運算叢集,無縫連結成具備數十萬顆加速器的超級電腦,藉此大幅縮短全球最頂尖前沿模型 (Frontier models)的分散式訓練時間。

▲Google推出全新專為AI最佳化的Virgo網路系統架構
▲Google推出全新專為AI最佳化的Virgo網路系統架構

▲Virgo網路系統架構亦可用於即將佈署於Google Cloud的NVIDIA...
▲Virgo網路系統架構亦可用於即將佈署於Google Cloud的NVIDIA Vera Rubin NVL72運算系統

在儲存方面,Google分別升級名為「Managed Lustre」 (資料吞吐量達10 TB/s),以及「Rapid Storage」 (資料吞吐量增加至15 TB/s)的儲存系統。而此次同步推出的「智慧儲存」 (Smart Storage)系統設計,則是在底層自動賦予非結構化資料「語意」 (Semantic meaning),意味能讓AI代理更精準地從儲存系統內撈取,並且理解龐大資料對應涵義,藉此為企業建構更完善的資料知識圖譜。

▲透過名為「Managed Lustre」 提高儲存系統的資料吞吐量
▲透過名為「Managed Lustre」 提高儲存系統的資料吞吐量

打造能「自我修復」的自駕雲端

有了強大的硬體,Google也宣布在軟體調度能力大幅升級。Google Kubernetes Engine (GKE)加入針對AI推論的次秒級冷啟動 (Cold starts),標榜能以每秒建構300個沙盒的速度進行佈署。

更令人矚目的是,Google將AI代理應用於管理自身基礎設施運作。透過模型上下文協定 (MCP),Google表示已經將自家的雲端服務轉換為可由AI代理直接操作,意味系統能透過Gemini的推論能力,結合過去數十年的系統遙測數據,進行「自主根本原因分析」 (Root-cause analysis),在人類工程師發現問題之前,雲端系統就已經能自動揪出錯誤設定,並且完成修復。

分析觀點

Google這次公開的「AI超級電腦」架構,充分展現其作為全球最大網路巨頭的硬體底蘊。

最關鍵的戰略佈局,在於第8代TPU的「雙架構」發展,印證當前AI產業發展的殘酷現實:訓練千億甚至兆級參數模型與落地佈署數百萬個高頻率互動的AI代理時所面臨挑戰,其中包含訓練過程的記憶體容量建置,以及後續推論運作時的成本花費,從硬體層面實際上會是不同需求,因此Google跟進市場趨勢採取「訓練/推理分流」的雙架構設計,透過TPU 8t的ICI互連與HBM高頻寬記憶體共享加快訓練效率,並且以TPU 8i搭配耐用、低延遲且運作成本相對低SRAM靜態隨機存取記憶體,讓龐大且頻繁的AI代理運作推論開銷大幅降低。

此外,Virgo網路系統的誕生,加上智慧儲存的概念導入,更說明未來AI競爭重心早已不只是GPU性能有多高,還必須考量資料中心「網路頻寬是否會塞車」,以及「儲存系統能否跟上運算速度」。

當波士頓動力 (Boston Dynamics)或跨國對沖基金金融服務公司Citadel Securities此類頂級客戶都在利用Google的TPU基礎設施加速研發時,這座具備「自我修復能力」的AI超級電腦,預期將成為Google在雲端代理人服務應用競爭中的技術壁壘。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱