不光是硬體升級,NVIDIA解析「Hopper」 H100 GPU加速運算效能提升秘密
針對此次GTC 2022公布代號「Hopper」的H100 GPU,以及名為Superchip的設計方案,NVIDIA團隊在後續釋出技術白皮書與進一步深入解說文章中,詳細說明新款GPU所帶來改變,同時也進一步在訪談說明更多細節。
H100 GPU的加速運算效能並非僅在硬體提升
其中,可以確認此次推出的H100 GPU同樣區分採SMX介面與PCIe介面設計,其中僅在SMX介面版本能以700W運作功率發揮更高加速效能,而PCIe介面設計則是為了配合現有x86架構設計的Intel及AMD處理器,因此效能會相對受限PCIe介面傳輸頻寬,同時整體運作功率也會較低,因此效能自然會有所打折。
而在技術團隊說明中,更透露採Superchip設計方案時,將能進一步解放H100 GPU運算加速效能,其中不僅是因為配合「Grace」CPU提高指令集執行效率,更因為藉由第四代NVLink設計,而使H100 GPU能以全速形式運作。
從技術團隊另外說明Superchip的設計方案搭配其他業者的處理器的話,則會走Intel等業者推動的UCIe設計規範,因此效能在某種程度上也會打折,但強調依然會有一定加速效能表現,只是言下之意要發揮完整加速運算效能,依然要選擇NVIDIA所提供設計方案。
H100 GPU的價速運算效能並非僅在硬體提升
回到H100 GPU本身,NVIDIA強調相比先前推出的A100 GPU,在加速運算效能約提升6倍,其中搭載800億組電晶體,並且以台積電4nm製程打造,完整效能版本最高可構成144組SM (Streaming Multiprocessor)運算單元,同時對應更高運作時脈與傳輸頻寬。
但此次大幅提高加速運算效能的背後,除了採用第4代Tensor Core設計,更藉由新增加的Transformer Engine設計,讓H100 GPU加速運算效能有顯著躍升。
結構方面,H100 GPU的每個SM運算單元涵蓋128組FP32 CUDA核心,代表完整版本將總計具備18432組FP32 CUDA核心,同時配合256KB L1快取記憶體、50MB L2快取記憶體,以及採用每秒可對應3TB資料量傳輸的HBM3高頻寬記憶體,同時對外透過第4代NVLink或PCIe Gen 5規格,本身更支援高度安全的機密運算,藉此在MIG虛擬化模式下對應更安全運算表現。
而加入第4代Tensor Core不僅加速張量運算效能,此次更針對大型語言推論等需求增加Transformer Engine設計,藉此對應更高速的推論運算表現。
因此,在電晶體數量、時脈、快取記憶體與HBM記憶體容量均大幅提升,加上傳輸頻款也明顯增加,並且加入全新運算技術與TMA非同步執行計算功能,將使H100 GPU在運算加速能有更明顯突破,同時這樣的突破並非僅侷限在硬體升級,更包含運算架構模式改變,一如NVIDIA最初在Volta架構的V100 GPU加入Tensor Core設計,進而讓整體運算加速更為顯著。
採完全相反設計的「Lovelace」即將來到?
不過,雖然有人質疑H100 GPU去除大部分的圖像運算功能,但從產品本質上來看,H100 GPU就是作為超算加速應用需求打造,自然會將所有運算元件作為加速使用。
而若從「Hopper」H100 GPU的設計推論,意味市場傳聞下半年準備推出的「Lovelace」,自然將會採用與「Hopper」完全相反的設計,亦即會將絕大多數的運算元件作為圖像運算使用,似乎也會採用多達18432組FP32 CUDA核心,並且加入更完整的即時光影追跡 (Ray Tracing)功能,並且採用PCIe Gen 5介面設計。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
留言