NVIDIA以TensorRT-LLM模型提高H100 GPU上的大型自然語言模型推論能力

2023-09-12 09:30 聯合新聞網楊又肇

針對目前多數業者採用的大型自然語言模型應用需求，NVIDIA宣布以開源架構設計的TensorRT-LLM模型，強化H100 GPU在大型自然語言模型的推論能力。

此項開源架構設計的TensorRT-LLM模型將在未來幾周內提供，本身以TensorRT深度學習框架組成，包括經最佳化調整的內核、前處理及後處理步驟，加上多組GPU、多節點通訊基礎，可在NVIDIA GPU上提供出突破性的效能表現。

除了能讓開發人員以更快速度運作大型自然語言模型，並且提供峰值效能和快速自訂功能，甚至無需具備深厚的C++或NVIDIA CUDA程式相關知識也能快速使用。

另外，TensorRT-LLM本身結合開源模組Python API，同時提高易用性與擴充性，可用於定義、最佳化和執行新架構，更可隨著大型自然語言模型發展擴充，並且能自訂相關內容。

相比Meta提出、參數達700億組的Llama 2，NVIDIA表示TensorRT-LLM配合H100 GPU，在Llama 2模型上推論效能，是使用A100 GPU的4.6倍。

TensorRT-LLM採用模型平行化 (model parallelism)的張力平行運算模式，將個別權重矩陣分割至各個裝置上，並且透過NVLink串接多組GPU，即可以大規模高效率的方式進行推論，進而加快大型自然語言模型運作效率。

同時，針對人工智慧服務應用經常面臨一來一往的問答互動，或是藉由前後互動模式自動生成更多內容的情況，TensorRT-LLM可透過動態批次處理技術，立即從已經完成運算請求銜接下一個互動需求，無須等到所有運算逐一執行完畢才能銜接後續互動，藉此提高GPU加速運算使用率，在加快處理效率之餘，也降低更多等待處理時的電力損耗，以及相關運算使用成本。

另外，TensorRT-LLM搭配H100 GPU，即可將模型轉會為FP8格式，透過更低精度對應執行更大模型規模，並且能在不降低整體模型精度情況下，減少記憶體損耗，同時也能以更快效率執行運作。

目前NVIDUA將開放TensorRT-LLM前期測試，未來將整合進NVIDIA NeMo框架。而開發人員與研究人員目前可透過NGC上的NeMo框架，或是GitHub上的源碼庫取得TensorRT-LLM。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

📌 數位新聞搶鮮看！

　訂閱《科技玩家》YouTube頻道！
💡 追新聞》》在Google News按下追蹤，科技玩家好文不漏接！
📢 獨／Gogoro車主沒騎車2年被罰5萬！1關鍵網全不挺官方回應了
 📢 Dyson兩大空氣清淨機開箱！小鋼炮對決衛星站滅甲醛、揪惡臭
 📢 嚇！百萬AI機器人突造神「膜拜龍蝦」這平台恐引人類災難…3招防堵
 📢 台人最愛「東京地鐵通票」3月漲價交通套票新價格一次看
 📢 LINE免費貼圖！「馬上有錢」馬年吉祥話快用情人節調情這裡有
 📢 便宜資費懶人包／5G拚399元、這方案折扣2萬 4G吃到飽再漲價

人工智慧 Llama NVIDIA

NVIDIA以TensorRT-LLM模型提高H100 GPU上的大型自然語言模型推論能力

推薦文章

天才IT報廢SSD硬碟用電鑽打洞完美「描邊」…公司機密仍外洩

導航只用Google地圖？果粉曝蘋果地圖2大優勢：用過回不去

不是詐騙！LINE官方再次點名快做「帳號健檢」沒完成綁定被盜救不回

蘋果深夜發新品！iPhone 17e「入門級完全體」加量不加價、還有M4 iPad Air

這水太深！極客灣踢爆手機性能「iPhone以外全作弊」影片慘遭全網封殺

Apple Watch要常常換新嗎？內行人曝新觀點：沒用1功能不用買

NVIDIA以TensorRT-LLM模型提高H100 GPU上的大型自然語言模型推論能力

推薦文章

天才IT報廢SSD硬碟 用電鑽打洞完美「描邊」…公司機密仍外洩

導航只用Google地圖？果粉曝蘋果地圖2大優勢：用過回不去

不是詐騙！LINE官方再次點名快做「帳號健檢」 沒完成綁定被盜救不回

蘋果深夜發新品！iPhone 17e「入門級完全體」加量不加價、還有M4 iPad Air

這水太深！極客灣踢爆手機性能「iPhone以外全作弊」 影片慘遭全網封殺

Apple Watch要常常換新嗎？內行人曝新觀點：沒用1功能不用買

天才IT報廢SSD硬碟用電鑽打洞完美「描邊」…公司機密仍外洩

不是詐騙！LINE官方再次點名快做「帳號健檢」沒完成綁定被盜救不回

這水太深！極客灣踢爆手機性能「iPhone以外全作弊」影片慘遭全網封殺