
針對目前多數業者採用的大型自然語言模型應用需求,NVIDIA 宣布以開源架構設計的TensorRT-LLM模型,強化H100 GPU在大型自然語言模型的推論能力。
此項開源架構設計的TensorRT-LLM模型將在未來幾周內提供,本身以TensorRT深度學習框架組成,包括經最佳化調整的內核、前處理及後處理步驟,加上多組GPU、多節點通訊基礎,可在NVIDIA GPU上提供出突破性的效能表現。
除了能讓開發人員以更快速度運作大型自然語言模型,並且提供峰值效能和快速自訂功能,甚至無需具備深厚的C++或NVIDIA CUDA程式相關知識也能快速使用。
另外,TensorRT-LLM本身結合開源模組Python API,同時提高易用性與擴充性,可用於定義、最佳化和執行新架構,更可隨著大型自然語言模型發展擴充,並且能自訂相關內容。
相比Meta提出、參數達700億組的Llama 2,NVIDIA表示TensorRT-LLM配合H100 GPU,在Llama 2模型上推論效能,是使用A100 GPU的4.6倍。
TensorRT-LLM採用模型平行化 (model parallelism)的張力平行運算模式,將個別權重矩陣分割至各個裝置上,並且透過NVLink串接多組GPU,即可以大規模高效率的方式進行推論,進而加快大型自然語言模型運作效率。
同時,針對人工智慧 服務應用經常面臨一來一往的問答互動,或是藉由前後互動模式自動生成更多內容的情況,TensorRT-LLM可透過動態批次處理技術,立即從已經完成運算請求銜接下一個互動需求,無須等到所有運算逐一執行完畢才能銜接後續互動,藉此提高GPU加速運算使用率,在加快處理效率之餘,也降低更多等待處理時的電力損耗,以及相關運算使用成本。
另外,TensorRT-LLM搭配H100 GPU,即可將模型轉會為FP8格式,透過更低精度對應執行更大模型規模,並且能在不降低整體模型精度情況下,減少記憶體損耗,同時也能以更快效率執行運作。
目前NVIDUA將開放TensorRT-LLM前期測試,未來將整合進NVIDIA NeMo框架。而開發人員與研究人員目前可透過NGC上的NeMo框架,或是GitHub上的源碼庫取得TensorRT-LLM。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 LINE一人群組超多「收回訊息」!內行人1招秒清空 網:真的有人不知道
📢 LINE免費貼圖3款來了!超Q櫻桃小丸子 玩遊戲就能拿
📢 M3版iPad Air來了!19900元起加量不加價、還有新版巧控鍵盤 蘋果悄更新iPad 11
📢 Skype五月說掰掰!轉移Microsoft Teams教學 「上班專用」可聊天建社群
📢 iPhone 16e、16有差異嗎?差價8千該買哪一款?1表看價格、規格、功能比較
📢 等3年!Sony超夯藍牙耳機WH-1000XM6真的要來了 3色爭豔規格也升級