NVIDIA進一步解釋Blackwell架構細節更高效能輸出維持運算組合彈性

針對此次揭曉的「Blackwell」顯示架構，NVIDIA 在會後解釋此顯示架構細節，並且說明分別推出B100、B200與GB200 Superchip三種加速運算元件設計。

NVIDIA執行長黃仁勳說明，「Blackwell」顯示架構是在挑戰物理極限的情況下，同時考量實際效能與成本之間效益平衡所打造產品。

「Blackwell」顯示架構是針對兆級規模參數量的人工智慧 需求打造，本身以台積電 客製化 4nm製程生產，並且能藉由單一GPU設計對應20 PetaFLOPS算力表現，結合此GPU設計的Superchip涵蓋2080億組電晶體，分別可在訓練效率相比先前推出的「Hopper」提升4倍，推論運算效率則可提高30倍，而能源使用效率更提升25倍。

架構方面，「Blackwell」整合第二代Transformer人工智慧引擎、可對應FP4/FP6低位元浮點運算的Tensor Core設計，並且對應第五代NVLink連接技術，最多可同時與576組GPU連動，支援每秒達800GB的資料解壓速率，以及更安全資料加密保護機制，更可確保運作穩定性。

另外，「Blackwell」也以兩組光罩對應Die裸晶核心單元構成的特殊設計，內部則以每秒10TB資料傳輸速率方式的NVLink-HBI介面進行溝通，並且能以單一GPU形式運作。

NVIDIA執行長黃仁勳說明，「Blackwell」顯示架構是在挑戰物理極限的情況下，同時考量實際效能與成本之間效益平衡所打造產品。因此將兩組Die裸晶核心單元組成單一GPU，顯然是在既有製程技術良率與製造成本之間取得平衡，並且透過組合堆疊方式提高「Blackwell」顯示架構運算效能。

▲「Blackwell」顯示架構設計，可以看見透過相同資料傳輸量設計，讓整個「G... — ▲「Blackwell」顯示架構設計，可以看見透過相同資料傳輸量設計，讓整個「GPU」運算加速更快

「Blackwell」在FP8運算模式可對應10 PetaFLOPS算力表現，而在FP4運算模式則可對應20 PetaFLOPS算力表現，本身則整合192GB容量、支援每秒8TB資料傳輸量的HBM3e高密度記憶體 ，並且能透過NVLink以每秒1.8TB速率交換資料內容。

為了進一步提升「Blackwell」在多模運作人工智慧應用效率，NVIDIA也透過HDR Infiniband傳輸介面提供每秒可達100 GByte的資料傳輸效率，藉此能讓大規模運算叢集中的每15組GPU運算資料進行同步，並且搭配第五代NVLink設計讓多達576組GPU構成運算節點的運算內容維持正確。

分別推出B100、B200與GB200 Superchip三種加速運算元件設計

而目前以「Blackwell」顯示架構打造加速運算元件設計，分別區分B100、B200，以及結合單組「Grace」CPU與兩組「Blackwell」GPU構成的GB200 Superchip。

其中，B100、B200均搭載總容量達192GB的HBM3e高密度記憶體，對應每秒8TB資料傳輸量，同時與GPU本身對應資料傳輸量相同，因此在顯示架構上可以對應更快資料處理效率。

至於B100、B200兩者最大差異在於運作功耗不同，前者最高功耗為700W，可藉由空冷散熱形式運作，同時也能直接用在H100加速元件設計對應HGX機架空間內，後者功耗則在一般情況下對應1000W，依然可透過空冷形式運作，但能否用於H200既有對應機架空間則要看情況，至於若將功耗進一步提高至1200W，就必須以水冷形式運作，因此對應機架就必須重新設計。

GB200 Superchip主要針對人工智慧訓練加速打造，以全水冷形式運作

GB200 Superchip就必須以全水冷形式運作，但好處在於能減少極佔空間的散熱模組，並且透過水冷系統維持運作穩定性，對比運作功耗為10.2kW、8U機架設計的DGX H100系統，在接近運算效能情況下，所對應佔據空間將降低為八分之一，同時也能以水冷系統降低熱交換所需空間，以及運作時所產生噪音等問題。

若以H100算力為基礎，GB200 Superchip的算力為6倍，約可處理GPT-3 1750億組參數量，而對應處理多模特定領域算力表現則可達30倍，可處理多達1.8兆參數規模。

透過NVLink將36組GB200 Superchip串接成的GB200 NVL72，可在訓練對應720 PFLOPS算力表現，推論算力則可達1440 PFLOPS，同時可對應27兆組參數規模，多節點傳輸頻寬可達每秒130TB，最高可對應每秒260TB傳輸量。

另外，將8組GB200 NVL72串接的話，則可建構DGX BG200 Superpod，整合288組「Grace」CPU與576組「Blackwell」GPU構成，並且包含240TB高速記憶體容量，在FP4運算模式可對應11.5 ExaFLOPS算力表現，並且發揮30倍推論效率、4倍訓練效率，同時提升25倍能源使用效率。

保持組合彈性，但在人工智慧發展趨勢下更傾向Arm架構組合

以目前來看，NVIDIA依然在「Blackwell」顯示架構維持組合彈性，可選擇與x86架構CPU或Arm架構CPU組合，而在B100設計上也能相容既有H100對應機架使用，B200在特定情況下也能相容使用既有機架，藉此維持其佈署應用升級彈性，同時也在運算效能有相當程度提升表現。

但如果是要對應人工智慧佈署應用的話，NVIDIA表示當前最佳組合還是Arm架構CPU，主要還是受限於x86架構CPU對應I/O埠等通道設計，以及NVLink可對應連接數量上限，加上採用x86架構CPU還有額外散熱系統建置需求，因此目前用於人工智慧推論等訓練，依然會主推搭配「Grace」CPU的組合。