專為「代理人企業」打造的AI超級電腦！Google解析第8代TPU雙架構與Virgo全新網路技術細節

在Google Cloud Next'26大會上，除了光鮮亮麗的軟體應用與代理人平台外，支撐這一切服務運作的底層硬體同樣迎接巨大的技術躍進。Google資深副總裁暨AI與基礎設施技術長Amin Vahdat深入剖析此次更新、專為嚴苛AI負載量身打造的「AI超級電腦」（AI Hypercomputer）架構。

其中，最受矚目的是Google揭曉採取「訓練」與「推論」雙軌並進的第8代TPU雙架構設計，區分為針對訓練使用的TPU 8t，以及對應龐大推論使用的TPU 8i，另外也針對企業用戶佈署需求將率先導入NVIDIA 最新推出的Vera Rubin NVL72 （VR200）系統，同時更結合全新發表的Virgo網路系統架構與具備語意理解的智慧儲存系統（Smart Storage），Google宣告雲端算力戰場已經正式從單純的「晶片比拼」，晉升為運算、儲存與網路高度整合的「系統戰」。

算力核心：第8代TPU「精準分工」，將首發採用NVIDIA Vera Rubin加速系統

為了提供業界最廣泛的運算選擇，Google這次在自研TPU張量加速器採取精準的「分工策略」：

• TPU 8t （為極致訓練而生）：採用突破性的跨晶片互連（ICI）技術，能在單一超級叢集（Superpod）中擴展至驚人的9600顆TPU 8t，並且共享高達2PB的HBM高頻寬記憶體。相比前代「Ironwood」，TPU 8t的運算能力大幅提升3倍，每瓦效能（Performance／Watt）也提升高達2倍。

• TPU 8i （為百萬級推論而生）：面對代理人時代海量的即時推論需求，TPU 8i採用全新的「Boardfly拓撲結構」，能在單一運算叢集（Pod）中直接連接1152顆TPU 8i，並且在288GB的HBM高頻寬記憶體的設計中，額外加入384MB的SRAM靜態隨機存取記憶體，在具備低延遲存取效能特性，並且維持高耐用度特性與低成本建置之下，讓記憶體容量大幅提升3倍，使龐大的KV快取資料能完全放置於記憶體內，不僅能實現近乎零延遲的執行反應速度，更讓推論運作的性價比（Performance per dollar）相比前代TPU增加80%。

而在擁抱自研晶片的同時，Google也強調在提供企業客戶有更多選擇考量下，同樣與NVIDIA維持緊密合作，除了既有的Hopper、Blackwell架構執行個體，更宣布將成為首批提供NVIDIA Vera Rubin NVL72系統的雲端服務商。

▲Google表示將成為首批提供NVIDIA Vera Rubin NVL72系... — ▲Google表示將成為首批提供NVIDIA Vera Rubin NVL72系統的雲端服務商

此外，去年推出主打高性價比的Google自研Arm架構 CPU「Axion」，去年11月也已經正式應用在N4A執行個體，將針對AI代理的日常維運需求，提供強大且節能的運算後盾。

打通任督二脈：Virgo網路系統與智慧儲存系統

有了頂尖的運算大腦，還需要強大的神經網路與記憶庫。

在網路傳輸層面，Google推出了全新專為AI最佳化的Virgo網路系統架構，主要負責將NVIDIA Vera Rubin NVL72，或是TPU 8t超級運算叢集，無縫連結成具備數十萬顆加速器的超級電腦，藉此大幅縮短全球最頂尖前沿模型（Frontier models）的分散式訓練時間。

▲Virgo網路系統架構亦可用於即將佈署於Google Cloud的NVIDIA... — ▲Virgo網路系統架構亦可用於即將佈署於Google Cloud的NVIDIA Vera Rubin NVL72運算系統

在儲存方面，Google分別升級名為「Managed Lustre」（資料吞吐量達10 TB／s），以及「Rapid Storage」（資料吞吐量增加至15 TB／s）的儲存系統。而此次同步推出的「智慧儲存」（Smart Storage）系統設計，則是在底層自動賦予非結構化資料「語意」（Semantic meaning），意味能讓AI代理更精準地從儲存系統內撈取，並且理解龐大資料對應涵義，藉此為企業建構更完善的資料知識圖譜。

打造能「自我修復」的自駕雲端

有了強大的硬體，Google也宣布在軟體調度能力大幅升級。Google Kubernetes Engine （GKE）加入針對AI推論的次秒級冷啟動（Cold starts），標榜能以每秒建構300個沙盒的速度進行佈署。

更令人矚目的是，Google將AI代理應用於管理自身基礎設施運作。透過模型上下文協定（MCP），Google表示已經將自家的雲端服務轉換為可由AI代理直接操作，意味系統能透過Gemini的推論能力，結合過去數十年的系統遙測數據，進行「自主根本原因分析」（Root-cause analysis），在人類工程師發現問題之前，雲端系統就已經能自動揪出錯誤設定，並且完成修復。

分析觀點

Google這次公開的「AI超級電腦」架構，充分展現其作為全球最大網路巨頭的硬體底蘊。

最關鍵的戰略佈局，在於第8代TPU的「雙架構」發展，印證當前AI產業發展的殘酷現實：訓練千億甚至兆級參數模型與落地佈署數百萬個高頻率互動的AI代理時所面臨挑戰，其中包含訓練過程的記憶體容量建置，以及後續推論運作時的成本花費，從硬體層面實際上會是不同需求，因此Google跟進市場趨勢採取「訓練／推理分流」的雙架構設計，透過TPU 8t的ICI互連與HBM高頻寬記憶體共享加快訓練效率，並且以TPU 8i搭配耐用、低延遲且運作成本相對低SRAM靜態隨機存取記憶體，讓龐大且頻繁的AI代理運作推論開銷大幅降低。

此外，Virgo網路系統的誕生，加上智慧儲存的概念導入，更說明未來AI競爭重心早已不只是GPU性能有多高，還必須考量資料中心「網路頻寬是否會塞車」，以及「儲存系統能否跟上運算速度」。

當波士頓動力（Boston Dynamics）或跨國對沖基金金融服務公司Citadel Securities此類頂級客戶都在利用Google的TPU基礎設施加速研發時，這座具備「自我修復能力」的AI超級電腦，預期將成為Google在雲端代理人服務應用競爭中的技術壁壘。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

📌 數位新聞搶鮮看！