Meta 公布其用於自動生成式人工智慧 的硬體基礎設施,其中包含兩個各自採用2萬4576組NVIDIA H100 GPU、可對應大型數據中心算力規模的運算叢集。
相較Meta在2022年公布用於人工智慧運算叢集、採用1.6萬組NVIDIA A100 GPU的AI Research SuperCluster (RSC),此次公布規格幾乎提升超過2倍以上,並且能運作更大、更複雜的人工智慧模型。
其中一個運算叢集基於Arista 7800、Wedge400,以及Minipack2開放運算計畫 (OCP)機架交換器構成的RDMA over Converged Ethernet (RoCE)解決方案,另一個運算叢集則是基於NVIDIA的Quantum2 InfiniBand網路架構,兩個運算叢集均對應400 Gbps的端點互連傳輸速率,並且能以不同網路架構,評估不同類型的互連型態對於大規模人工智慧訓練的適用性及可擴展性,同時也能作為日後設計、建置更大規模運算叢集的參考依據。
此運算叢集除了網路架構,其他均以Meta內部設計建構,並且對外貢獻給開放運算計畫的GPU硬體平台Grand Teton,藉此讓更多人工智慧系統採用,可在單一機箱內整合包含變電源、控制系統、運算架構與傳輸介面,同時也能對應更好運算效能及訊號完整性,更可對應更良好的熱效能。
而在儲存架構則採用Meta內部Tectonic分散式儲存解決方案,透過其中Linux Filesystem in Userspace (FUSE) API資源對應人工智慧運算叢集資料,以及檢查點相關需求,讓多數GPU能同步儲存、載入檢查點,藉此提資料載入時的彈性,以及提供EB儲存規模吞吐量。
另外,Meta也與全球資料共用平台Hammerspace合作打造平行網路檔案系統佈署技術,其中運用可讓工程人員透過數千個GPU資源進行執行任務除錯,並且讓程式有所變動時,可讓佈署應用環境所有節點同步存取,藉此對應龐大人工智慧運算使用模式。
Meta計畫持續擴大自動生成式人工智慧的硬體基礎設施,預計在今年底增加使用35萬組NVIDIA H100 GPU,並且計畫發揮等同60萬組NVIDIA H100 GPU的運算效能。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 Netflix雙11送「漲價大禮」!月費最高悄漲18%超驚人 每月比Max貴161元
📢 【11月便宜資費懶人包/4G吃到飽488!5G搶市4百有找、再送千元小禮
📢 【雙11特價】OTT串流平台優惠 MyVideo低於3折、LINE TV免千元
📢 LINE免費貼圖精選12組!「我不雞道」大玩諧音哏 黑貓椒滴滴超Q
📢 你的iPhone正在追蹤你!3步驟甩開APP竊聽 不被掌握行蹤
📢 【雙11特價】手機殼省千元!CASETiFY三件7折、犀牛盾6折起、普格爾買1送1