以超過6000張NVIDIA A100 GPU加速美國能源部啟用新超級電腦「Perlmutter」

2021-05-28 09:04

聯合新聞網／ 楊又肇

從去年11月至今年3月間投入建置、測試，並且隸屬於美國能源部國家能源研究科學計算中心的超級電腦 「Perlmutter」，其中採用超過6000張NVIDIA A100 GPU進行加速，藉此成為全球最快的人工智慧 推論電腦系統。

「Perlmutter」是以美國天體物理學家、國家科學院院士Saul Perlmutter命名，成為前一代超級電腦「Cori」的後繼，由HPE旗下Cray負責建置，並且採用全新Shasta結構設計，其中採用AMD代號「Milan」的第三代EPYC伺服器處理器，以及NVIDIA 採Ampere顯示架構設計的A100 GPU驅動算力，並且以兩段運算線程構成。

其中，第一線程採用超過1500個運算節點與35 petabytes快閃儲存容量，每個節點配置1組第三代EPYC伺服器處理器與4張NVIDIA A100 GPU，例外也包含非運算節點與用於佈署Kubernetes容器化運算環境的連結節點，以及服務節點。而第二線程運算節點數量則在3000組以上，每組節點配置2組第三代EPYC伺服器處理器與512GB記憶體，並且加上20組以上的存取節點與4組大規模記憶體存取節點。

依照NVIDIA說明，「Perlmutter」總計使用近6200張A100 GPU，依照運算規模需求可發揮不同算力表現，例如在FP16 (半精度浮點數)情況下執行混合預測的人工智慧算力表現可達4 EFLOPS (每秒運算4 x 10¹⁸次)，而在FP64 (雙精度浮點數)情況下執行超算則可對應120 PFLOPS (每秒運算120 x 10¹⁵次)算力表現。

而「Perlmutter」將會投入包含巨量資料分析、模擬研究，以及人工智慧技術應用領域算力需求，同時算力表現也大幅超越位於德國利希研究中心 (Forschungszentrum Jülich)，同樣以NVIDIA GPU加速的超級電腦「JUWELS」，以及採Arm架構設計、由富士通與日本理化學研究所共同開發的超級電腦「富岳」 (ふがく/Fugaku)算力表現。

不過，在「Perlmutter」之後，NVIDIA也將與義大利非營利研究聯盟Cineca合作超級電腦「Leonardo」，藉由近14000張A100 GPU驅動高達10 EFLOPS (每秒運算10 x 10¹⁸次)算力，預計會在今年啟用運作。

至於與瑞士國家超級運算中心合作，預計在2023年啟用的超級電腦「Alps」，則會採用NVIDIA「Grace」CPU，搭配NVIDIA下一代GPU打造，同樣會由HPE旗下Cray負責建造。若以MLPerf測試基準測試，「Alps」算力表現約比NVIDIA打造超級電腦「Selene」對應的2.8 EFLOPS (每秒運算2.8 x 10¹⁸次)算力快上7倍之譜，用於訓練全球最龐大自然語言模型之一GPT-3，僅需兩天即可完成。