NVIDIA推出結合「Grace」CPU與「Blackwell」GPU運算叢集強化雲端AI應用佈署

2024-03-19 17:24

聯合新聞網／ 楊又肇

▲結合單一「Grace」CPU與兩組「Blackwell」GPU的GB200 Superchip

除了公布「Blackwell」顯示架構，NVIDIA 也同步宣布結合單一「Grace」CPU與兩組「Blackwell」GPU的GB200 Superchip，並且以此建構的運算叢集設備GB200 NVL72，其中整合36組「Grace」CPU及72組「Blackwell」GPU，彼此則以NVLink連接形成運算叢集。

效能方面，GB200 NVL72可在訓練對應720 PFLOPS算力表現，推論算力則可達1440 PFLOPS，同時可對應27兆組參數規模，多節點傳輸頻寬可達每秒130TB，最高可對應每秒260TB傳輸量。

▲整合36組「Grace」CPU及72組「Blackwell」GPU，彼此則以N... — ▲整合36組「Grace」CPU及72組「Blackwell」GPU，彼此則以NVLink連接形成運算叢集GB200 NVL72

此外，NVIDIA也強調結合「Grace」CPU與「Blackwell」GPU的GB200 Superchip的佈署應用彈性，例如以單一Superchip，或是以整合兩組Superchip形式的機架形式運算，甚至可以透過NVLink串連多組機架，藉此讓算力能以倍數堆疊。

不過，顯然受限於Arm運算子系統對應資料傳輸頻寬，加上若以人工智慧 推論運算效能最大化為目的，在GB200 Superchip的組合主要以單一「Grace」CPU與兩組「Blackwell」GPU為設計，藉此讓算力發揮最大化，並且以此組合進行倍數形式堆疊算力。

▲GB200 Superchip能以倍數堆疊形式增加GB200 NVL72運算叢... — ▲GB200 Superchip能以倍數堆疊形式增加GB200 NVL72運算叢集算力

若以H100 GPU算力為基礎，GB200 Superchip的算力為6倍，約可處理GPT-3 1750億組參數量，而對應處理多模特定領域算力表現則可達30倍，可處理多達1.8兆參數規模。

▲同樣以90天完成訓練GPT-MoE-1.8T人工智慧模型情況，透過GB200 ... — ▲同樣以90天完成訓練GPT-MoE-1.8T人工智慧模型情況，透過GB200 NVL72僅需花費「Hopper」顯示架構運算叢集的四分之一能耗

目前GB200 NVL72將由AWS 、Google Cloud、微軟 Azure 與甲骨文OCI (Oracle Cloud Infrastructure)在內公有雲服務採用，並且能藉由BlueField-3 SuperNIC、Spectrum-X800，或是ConnectX-8 SuperNIC、Quantum-X800的網路傳輸介面組合連接，預計會在今年內加速更多自動生成式人工智慧運算平台與雲端加速運算發展。

而NVIDIA也將推出採用GB200 Superchip設計的DGX GB200超級電腦，以及以8組DGX GB200超級電腦構成的DGX SuperPOD運算叢集，其中整合288組「Grace」CPU與576組「Blackwell」GPU構成，並且包含240TB高速記憶體容量，在FP4運算模式可對應11.5 ExaFLOPS算力表現，並且發揮30倍推論效率、4倍訓練效率，同時提升25倍能源使用效率。