Meta 公布其用於自動生成式人工智慧 的硬體基礎設施,其中包含兩個各自採用2萬4576組NVIDIA H100 GPU、可對應大型數據中心算力規模的運算叢集。
相較Meta在2022年公布用於人工智慧運算叢集、採用1.6萬組NVIDIA A100 GPU的AI Research SuperCluster (RSC),此次公布規格幾乎提升超過2倍以上,並且能運作更大、更複雜的人工智慧模型。
其中一個運算叢集基於Arista 7800、Wedge400,以及Minipack2開放運算計畫 (OCP)機架交換器構成的RDMA over Converged Ethernet (RoCE)解決方案,另一個運算叢集則是基於NVIDIA的Quantum2 InfiniBand網路架構,兩個運算叢集均對應400 Gbps的端點互連傳輸速率,並且能以不同網路架構,評估不同類型的互連型態對於大規模人工智慧訓練的適用性及可擴展性,同時也能作為日後設計、建置更大規模運算叢集的參考依據。
此運算叢集除了網路架構,其他均以Meta內部設計建構,並且對外貢獻給開放運算計畫的GPU硬體平台Grand Teton,藉此讓更多人工智慧系統採用,可在單一機箱內整合包含變電源、控制系統、運算架構與傳輸介面,同時也能對應更好運算效能及訊號完整性,更可對應更良好的熱效能。
而在儲存架構則採用Meta內部Tectonic分散式儲存解決方案,透過其中Linux Filesystem in Userspace (FUSE) API資源對應人工智慧運算叢集資料,以及檢查點相關需求,讓多數GPU能同步儲存、載入檢查點,藉此提資料載入時的彈性,以及提供EB儲存規模吞吐量。
另外,Meta也與全球資料共用平台Hammerspace合作打造平行網路檔案系統佈署技術,其中運用可讓工程人員透過數千個GPU資源進行執行任務除錯,並且讓程式有所變動時,可讓佈署應用環境所有節點同步存取,藉此對應龐大人工智慧運算使用模式。
Meta計畫持續擴大自動生成式人工智慧的硬體基礎設施,預計在今年底增加使用35萬組NVIDIA H100 GPU,並且計畫發揮等同60萬組NVIDIA H100 GPU的運算效能。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》