AMD正式推出代號Turin的第五代EPYC伺服器處理器 同步推出與NVIDIA H200抗衡的AI加速器

聯合新聞網 楊又肇

今年初宣布將推出代號Turin (義大利北部的重要工業城市杜林)的第五代EPYC伺服器處理器之後,AMD正式說明此款處理器正式出貨,並且獲得Cisco、Dell、HPE、聯想、Supermicro等ODM業者及雲端服務業者採用,另外也同步推出基於CDNA 3架構設計的Instinct MI325X加速器,藉此推動高效能和最佳化的人工智慧解決方案。

第五代EPYC伺服器處理器在人工智慧與高效運算每周期指令執行效能提升多達37%

第五代EPYC伺服器處理器以9005系列為稱,同樣以Zen 5架構打造,並且相容既有SP5接腳平台,提供8核心到192核心的廣泛核心數量規格選擇,強調在效能及能源效率之間平衡取得優勢,其中最高階的192核心處理器效能比起競爭對手推出同級提升高達2.7倍。

對比先推出Zen 4架構產品,此次應用Zen 5架構的第五代EPYC伺服器處理器在企業及雲端工作負載的每周期指令執行效能 (IPC)提升達17%,而在人工智慧與高效運算表現則在每周期指令執行效能提升多達37%。

以此次推出採192核心設計的EPYC 9965處理器為例,相比Intel推出的Xeon 8592+處理器在商業型應用如視訊轉碼速度提升高達4倍,而在科學和高效能運算應用洞察時間縮短則多達3.9倍,另外在虛擬化基礎設施 (infrastructure)中的每核心效能更提升高達1.6倍。

在TPCx-AI (衍生)等端對端人工智慧工作負載,EPYC 9965處理器效能提升高達3.7倍,而在Meta Llama 3.1-8B等中小型企業級生成式人工智慧模型可對應資料吞吐處理效能更比競爭對手推出同級產品提升1.9倍。

而此次同步新增、採64核心設計的EPYC 9575F處理器,則是針對需要極致主機CPU功能與GPU加速人工智慧解決方案打造,其中在運作時脈提高達5GHz,相比競爭對手推出同級產品的運作時脈為3.8GHz,速度提升高達28%,讓GPU能夠滿足要求嚴苛的人工智慧工作負載資料處理需求,並且能讓1000個節點的人工智慧運算叢集可在每秒驅動超過70萬個推論符元 (token),藉此更快完成多項執行任務。

其他部分,第五代EPYC伺服器處理器以9005系列更將推出以Zen 5c架構打造衍生規格,同時每組CPU可對應多達12通道的DDR5記憶體模組,最高可對應DDR5-6400 MT/s記憶體規格,另外也支援完整512b資料路徑的AVX-512指令集,並且使用對應機密運算的可信任I/O連接埠設計,以及正進行該系列中每個部份的FIPS認證,藉此確保系統運作安全。

Instinct MI325X加速器對比H200加速器在記憶體容量提高1.8倍

此次同步推出的Instinct MI325X加速器,則採用可達256GB容量、6.0TB/s傳輸速率的HBM3E高頻寬記憶體,強調對比NVIDIA的H200加速器在記憶體容量提高1.8倍,資料傳輸頻寬則增加1.3倍,另外在Mistral 7B模型的FP16運算理論峰值效能,更可在Llama 3.1 70B模型的FP8運算效能提升1.2倍,另外在Mixtral 8x7B模型的FP16運算峰值效能也提升1.4倍。

Instinct MI325X加速器預計在2024年第4季量產出貨,並且將於2025年第1季起由Dell、HPE、聯想、Supermicro、Eviden、技嘉等平台業者導入用於設計產品。

另外,AMD也宣布下一代Instinct MI350系列加速器將換上CDNA 4架構設計,預計帶來35倍推論效能提升,並且將配置高達288GB HBM3E高頻寬記憶體,預計會在2025年下半年順利推出。

至於Instinct MI400系列加速器則會在2026年推出,並且換上下一代人工智慧架構設計。

推出新款DPU、NIC推動人工智慧執行最佳化

而針對人工智慧運算執行最佳化,AMD宣布推出用於前端執行運算的Pensando Salina DPU,以及用於後端、業界首款UEC (Ultra Ethernet Consortium,超乙太網路聯盟)就緒的Pensando Pollara 400 AI NIC。

其中,Pensando Salina DPU與前一代產品相比,包含效能、頻寬和規模均提升高達2倍,支援400G資料傳輸吞吐量,而Pensando Pollara 400則支援新一代RDMA軟體,並且由開放的網路產業體系提供支援,可在後端網路中提供更高效能、可擴展性及加速器間通訊效率。

Pensando Salina DPU及Pensando Pollara 400 AI NIC都會在今年第四季送樣,並且將如期在2025年上半年推出。

在ROCm開放軟體堆疊持續加入全新特性及應用功能

而在人工智慧軟體框架部分,AMD強調持續推進軟體功能和開放產業體系的發展,在其ROCm開放軟體堆疊持續加入全新特性及應用功能。

在開放軟體社群中,AMD持續推廣PyTorch、Triton、Hugging Face等廣泛採用的人工智慧框架、函式庫與模型,並且使其相容AMD運算引擎運作,可用於Stable Diffusion 3、Meta Llama 3、3.1和3.2等熱門的生成式人工智慧模型,以及Hugging Face平台收錄超過100萬個人工智慧模型。

除了協助擴大開放軟體社群成長,AMD更持續推進其ROCm開放軟體堆疊,目前在ROCm 6.2均加入支援FP8資料類型、Flash Attention 3、Kernel Fusion等關鍵人工智慧功能,相比先前推出的ROCm 6.0可提供高達2.4倍的推論效能,以及1.8倍的大型語言模型訓練效能。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

楊又肇

曾任聯合新聞網 (udn.com)數位頻道記者,目前為自由寫手與Mas...

人工智慧 Llama 3

推薦文章

留言