NVIDIA以TensorRT-LLM模型提高H100 GPU上的大型自然語言模型推論能力
針對目前多數業者採用的大型自然語言模型應用需求,NVIDIA宣布以開源架構設計的TensorRT-LLM模型,強化H100 GPU在大型自然語言模型的推論能力。
此項開源架構設計的TensorRT-LLM模型將在未來幾周內提供,本身以TensorRT深度學習框架組成,包括經最佳化調整的內核、前處理及後處理步驟,加上多組GPU、多節點通訊基礎,可在NVIDIA GPU上提供出突破性的效能表現。
除了能讓開發人員以更快速度運作大型自然語言模型,並且提供峰值效能和快速自訂功能,甚至無需具備深厚的C++或NVIDIA CUDA程式相關知識也能快速使用。
另外,TensorRT-LLM本身結合開源模組Python API,同時提高易用性與擴充性,可用於定義、最佳化和執行新架構,更可隨著大型自然語言模型發展擴充,並且能自訂相關內容。
相比Meta提出、參數達700億組的Llama 2,NVIDIA表示TensorRT-LLM配合H100 GPU,在Llama 2模型上推論效能,是使用A100 GPU的4.6倍。
TensorRT-LLM採用模型平行化 (model parallelism)的張力平行運算模式,將個別權重矩陣分割至各個裝置上,並且透過NVLink串接多組GPU,即可以大規模高效率的方式進行推論,進而加快大型自然語言模型運作效率。
同時,針對人工智慧服務應用經常面臨一來一往的問答互動,或是藉由前後互動模式自動生成更多內容的情況,TensorRT-LLM可透過動態批次處理技術,立即從已經完成運算請求銜接下一個互動需求,無須等到所有運算逐一執行完畢才能銜接後續互動,藉此提高GPU加速運算使用率,在加快處理效率之餘,也降低更多等待處理時的電力損耗,以及相關運算使用成本。
另外,TensorRT-LLM搭配H100 GPU,即可將模型轉會為FP8格式,透過更低精度對應執行更大模型規模,並且能在不降低整體模型精度情況下,減少記憶體損耗,同時也能以更快效率執行運作。
目前NVIDUA將開放TensorRT-LLM前期測試,未來將整合進NVIDIA NeMo框架。而開發人員與研究人員目前可透過NGC上的NeMo框架,或是GitHub上的源碼庫取得TensorRT-LLM。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
留言