不光是硬體升級，NVIDIA解析「Hopper」 H100 GPU加速運算效能提升秘密

2022-03-25 15:31

聯合新聞網／ 楊又肇

針對此次GTC 2022公布代號「Hopper」的H100 GPU，以及名為Superchip的設計方案，NVIDIA團隊在後續釋出技術白皮書與進一步深入解說文章中，詳細說明新款GPU所帶來改變，同時也進一步在訪談說明更多細節。

H100 GPU的加速運算效能並非僅在硬體提升

其中，可以確認此次推出的H100 GPU同樣區分採SMX介面與PCIe介面設計，其中僅在SMX介面版本能以700W運作功率發揮更高加速效能，而PCIe介面設計則是為了配合現有x86架構設計的Intel及AMD處理器，因此效能會相對受限PCIe介面傳輸頻寬，同時整體運作功率也會較低，因此效能自然會有所打折。

而在技術團隊說明中，更透露採Superchip設計方案時，將能進一步解放H100 GPU運算加速效能，其中不僅是因為配合「Grace」CPU提高指令集執行效率，更因為藉由第四代NVLink設計，而使H100 GPU能以全速形式運作。

從技術團隊另外說明Superchip的設計方案搭配其他業者的處理器的話，則會走Intel等業者推動的UCIe設計規範，因此效能在某種程度上也會打折，但強調依然會有一定加速效能表現，只是言下之意要發揮完整加速運算效能，依然要選擇NVIDIA所提供設計方案。

H100 GPU的價速運算效能並非僅在硬體提升

回到H100 GPU本身，NVIDIA強調相比先前推出的A100 GPU，在加速運算效能約提升6倍，其中搭載800億組電晶體，並且以台積電4nm製程打造，完整效能版本最高可構成144組SM (Streaming Multiprocessor)運算單元，同時對應更高運作時脈與傳輸頻寬。

但此次大幅提高加速運算效能的背後，除了採用第4代Tensor Core設計，更藉由新增加的Transformer Engine設計，讓H100 GPU加速運算效能有顯著躍升。

結構方面，H100 GPU的每個SM運算單元涵蓋128組FP32 CUDA核心，代表完整版本將總計具備18432組FP32 CUDA核心，同時配合256KB L1快取記憶體、50MB L2快取記憶體，以及採用每秒可對應3TB資料量傳輸的HBM3高頻寬記憶體，同時對外透過第4代NVLink或PCIe Gen 5規格，本身更支援高度安全的機密運算，藉此在MIG虛擬化模式下對應更安全運算表現。

而加入第4代Tensor Core不僅加速張量運算效能，此次更針對大型語言推論等需求增加Transformer Engine設計，藉此對應更高速的推論運算表現。

因此，在電晶體數量、時脈、快取記憶體與HBM記憶體容量均大幅提升，加上傳輸頻款也明顯增加，並且加入全新運算技術與TMA非同步執行計算功能，將使H100 GPU在運算加速能有更明顯突破，同時這樣的突破並非僅侷限在硬體升級，更包含運算架構模式改變，一如NVIDIA最初在Volta架構的V100 GPU加入Tensor Core設計，進而讓整體運算加速更為顯著。

採完全相反設計的「Lovelace」即將來到？

不過，雖然有人質疑H100 GPU去除大部分的圖像運算功能，但從產品本質上來看，H100 GPU就是作為超算加速應用需求打造，自然會將所有運算元件作為加速使用。

而若從「Hopper」H100 GPU的設計推論，意味市場傳聞下半年準備推出的「Lovelace」，自然將會採用與「Hopper」完全相反的設計，亦即會將絕大多數的運算元件作為圖像運算使用，似乎也會採用多達18432組FP32 CUDA核心，並且加入更完整的即時光影追跡 (Ray Tracing)功能，並且採用PCIe Gen 5介面設計。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

📌 數位新聞搶鮮看！