觀點／終結「一招打天下」！從Google第8代TPU雙架構看AI代理時代的算力佈局與記憶體突圍戰

在此次於拉斯維加斯 舉辦的Google Cloud NEXT'26大會上，最引人矚目的硬體焦點，莫過於Google正式揭曉旗下最新世代的客製化AI加速晶片 ——第8代TPU「們」。

過去業界往往依賴同套架構的GPU 或加速器來包辦模型的訓練與推論，但隨著「代理人」（AI Agent）應用的全面爆發，Google此次做出明確的戰略切割：推出專注極致訓練的「TPU 8t」，以及主攻海量推論的「TPU 8i」，不僅宣告了AI晶片「一招打天下」的時代正式終結，更深刻反映目前AI產業在成本焦慮下的硬體戰略轉型。

為什麼需要「訓練、推論」雙軌制？解決AI代理的高昂開銷

隨著「代理人企業」時代來臨，數以百萬計的AI代理在雲端無休止地進行高頻率互動與多步驟決策，這讓推論成本（Inference Cost）呈現指數級飆升。如果繼續用高昂的訓練級晶片（例如GPU）來跑代理人推論，企業恐將面臨極大的財務壓力。

▲TPU 8t著重更高運算性能、更高資料吞吐量，而TPU 8i則採用384MB的... — ▲TPU 8t著重更高運算性能、更高資料吞吐量，而TPU 8i則採用384MB的SRAM靜態隨機存取記憶體，加上288GB的HBM高頻寬記憶體，標榜以更低運作成本支撐龐大的AI代理背後推論工作

▲相比先前以Ironwood分別對應訓練與推論的佈署狀況，Google標榜將第8... — ▲相比先前以Ironwood分別對應訓練與推論的佈署狀況，Google標榜將第8代TPU「們」拆分成訓練、推論兩種專用架構，將能帶動更大運算效益，同時也能讓成本有更好性價比表現

針對此次基礎設施架構的重大演進，Google資深副總裁暨AI與基礎設施技術長Amin Vahdat進一步分享此次第8代TPU雙架構背後的設計哲學。他指出，隨著AI模型規模的指數級成長，單一晶片已經難以同時完美兼顧這兩種截然不同的工作負載：

• 訓練（TPU 8t）強打規模與可靠度：訓練千億，甚至兆級參數的前沿模型，需要透過ICI互連與高頻寬記憶體（HBM），將數以萬計的晶片同步串聯。Amin Vahdat強調，這種極端規模下最大的挑戰是「無聲的數據損毀」（silent data corruption）。透過深度架構最佳化，使得Google能在龐大協同運算下維持高達97%的有效資料吞吐率。

• 推論（TPU 8i）決戰超低延遲：真正能為市場創造商業價值的是「模型服務」（Serving），亦即推論應用。為了讓TPU能以最低延遲執行任務，Google打造了極為特殊的網路拓撲架構，大幅縮短節點間的傳輸距離。這仰賴基礎設施團隊與DeepMind研究團隊的「肩並肩」協同設計，精準預測未來AI演算法的走向。

而目前有市場傳聞此次推出的TPU 8t是Google與聯發科合作產物，同時也有消息表示Google與Marvell攜手合作，但是否為此次公布的TPU 8i，Google並未具體說明。

記憶體產能吃緊：SRAM與DDR5成為推論市場新解法

目前全球HBM高頻寬記憶體產能嚴重吃緊，幾乎被各家頂級訓練晶片瓜分。對於需要大規模佈署的推論端來說，HBM高頻寬記憶體不僅昂貴且供不應求。

Google的雙架構策略則巧妙地繞過這個硬體瓶頸，在主攻推論的TPU 8i上，Google在採用288GB的HBM高頻寬記憶體設計之上，額外加上384MB的SRAM靜態隨機存取記憶體，使得龐大的KV快取資料能完全放置於記憶體內，大幅降低延遲，同時也能藉由相對較低的建置成本，讓推論運算的性價比相較前代配置狂增80%。

同時，市場目前也越來越多利用高頻率、大容量的DDR5記憶體來處理邊緣或中型AI代理的推論負載的架構設計，成為當前AI推論需求兼具成本與擴充性平衡的極佳作法。

殊途同歸：NVIDIA與Arm的推論市場卡位戰

有趣的是，將Google的策略與近期市場上其他巨頭的動作擺在一起看，會發現大家的戰略方向出奇一致：

NVIDIA收購Groq：NVIDIA雖然在訓練市場以Vera Rubin NVL72等巨獸級加速系統稱霸，但同時也意識到用頂規GPU跑海量小型代理推論並不划算。而Groq的LPU架構核心精神正是「將230MB的SRAM直接做在運算單元旁」，因此NVIDIA收購Groq、將其技術整合進Vera Rubin運算系統內，等同於在推論端補齊與Google TPU 8i抗衡的武器，並且在更多AI運算導入NVIDIA解決方案。

▲NVIDIA藉由Groq的LPU技術支撐AI代理推論運算需求，同時也將其併入目... — ▲NVIDIA藉由Groq的LPU技術支撐AI代理推論運算需求，同時也將其併入目前的Vera Rubin運算系統內，藉此將NVIDIA解決方案滲入更多AI運算需求

Arm推出AGI CPU ：Arm在今年3月公布自有伺服器處理器AGI CPU，看準通用運算在AI推論中的靈活性。對於建置全套GPU伺服器成本過高的企業而言，AGI CPU可搭配海量且便宜的DDR5／LPDDR記憶體池，透過強化的向量運算單元處理日常AI代理維運。這與Google去年推出Axion CPU，並且應用於日常AI維運的想法不謀而合，但Arm鎖定的是更多希望自建基礎設施的AI新創背後算力佈署需求，同時也能讓諸需要低功耗成本、高運算性能CPU處理諸多頻繁運算工作或AI代理任務的客戶（例如Meta）能有更多選擇。

▲Arm推出首款自有伺服器處理器，同樣鎖定當前AI代理，以及頻繁多任務運算需求，... — ▲Arm推出首款自有伺服器處理器，同樣鎖定當前AI代理，以及頻繁多任務運算需求，藉此滿足AI新創自建基礎算力，同時協助大型企業降低其網路服務背後高昂運算成本

與DeepMind的深度協同設計

硬體開發往往需要極長的週期，這意味著今天設計的晶片，必須能滿足兩、三年後甚至更久之後尚未問世的AI模型需求。

Amin Vahdat指出，這正是Google的巨大優勢所在。基礎設施團隊與DeepMind研究團隊保持著極為緊密的「肩並肩」合作關係。這種深度的軟硬體協同設計，讓Google得以精準預測未來AI演算法的走向，提前在硬體底層做好相應準備，而非等到需求出現才開始追趕。

運算架構的未來趨勢：CPU即將「強勢回歸」

在技術解析中，Amin Vahdat更說明「CPU即將強勢回歸」（CPUs are going to make a comeback），實際上也反應當前AI應用發展趨勢開始走向AI代理、推論應用，藉由GPU等加速元件投入成本會太高，而使用ASIC等專用運算元件可能會因為演算法迭代更新，變成必須更頻繁調整改變的情況下，CPU反而因為具備通用運算、能夠快速調度運算任務的特性，再次成為AI市場發展中的重要角色。

尤其當市場開始著重「代理人運算」（Agentic Computing）、各類AI代理應用發展之下，CPU反而更能勝任在這些繁雜的邏輯判斷與環境控制任務下，完成即時回應中建立沙盒環境、動態撰寫程式碼、驗證結果，並且在微服務間進行調度等運算需求。

因此，在Google的看法中，未來雲端資料中心將演變成高度異質化且分工明確的架構，例如由TPU 8i或GPU負責龐大的神經網路推論，而高效能CPU將再次回到核心位置，負責統籌這些AI代理的複雜邏輯。