NVIDIA以TensorRT-LLM模型提高H100 GPU上的大型自然語言模型推論能力
針對目前多數業者採用的大型自然語言模型應用需求,NVIDIA宣布以開源架構設計的TensorRT-LLM模型,強化H100 GPU在大型自然語言模型的推論能力。

此項開源架構設計的TensorRT-LLM模型將在未來幾周內提供,本身以TensorRT深度學習框架組成,包括經最佳化調整的內核、前處理及後處理步驟,加上多組GPU、多節點通訊基礎,可在NVIDIA GPU上提供出突破性的效能表現。
除了能讓開發人員以更快速度運作大型自然語言模型,並且提供峰值效能和快速自訂功能,甚至無需具備深厚的C++或NVIDIA CUDA程式相關知識也能快速使用。
另外,TensorRT-LLM本身結合開源模組Python API,同時提高易用性與擴充性,可用於定義、最佳化和執行新架構,更可隨著大型自然語言模型發展擴充,並且能自訂相關內容。
相比Meta提出、參數達700億組的Llama 2,NVIDIA表示TensorRT-LLM配合H100 GPU,在Llama 2模型上推論效能,是使用A100 GPU的4.6倍。
TensorRT-LLM採用模型平行化 (model parallelism)的張力平行運算模式,將個別權重矩陣分割至各個裝置上,並且透過NVLink串接多組GPU,即可以大規模高效率的方式進行推論,進而加快大型自然語言模型運作效率。
同時,針對人工智慧服務應用經常面臨一來一往的問答互動,或是藉由前後互動模式自動生成更多內容的情況,TensorRT-LLM可透過動態批次處理技術,立即從已經完成運算請求銜接下一個互動需求,無須等到所有運算逐一執行完畢才能銜接後續互動,藉此提高GPU加速運算使用率,在加快處理效率之餘,也降低更多等待處理時的電力損耗,以及相關運算使用成本。
另外,TensorRT-LLM搭配H100 GPU,即可將模型轉會為FP8格式,透過更低精度對應執行更大模型規模,並且能在不降低整體模型精度情況下,減少記憶體損耗,同時也能以更快效率執行運作。
目前NVIDUA將開放TensorRT-LLM前期測試,未來將整合進NVIDIA NeMo框架。而開發人員與研究人員目前可透過NGC上的NeMo框架,或是GitHub上的源碼庫取得TensorRT-LLM。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢甩開悠遊卡?北捷10月開放多元支付閘門 1招真能用iPhone快速模式嗶進站
📢 手機壞掉不能換SIM卡?NCC疑新規定「90天2次」 他傻眼曝倒霉時間軸
📢 Switch 2完整拆解!Joy-Con 2控制器仍會遇上飄移問題
📢 TORRAS COOLiFY Cyber、COOLiFY 2S AI頸掛空調開箱!實測戶外超涼 還能解落枕
📢 他逛光華商場驚覺變無聊又被盤!過來人羞曝「朝聖攻略」:好吃又好玩
📢 iPhone 17改名iPhone 2025?他搖頭揭背後「藏大招」 賺錢金頭腦原理曝
留言