更方便！Meta公布「大型自然語言模型」可對應長文內容、更複雜前後文關聯

2023-10-08 12:44 聯合新聞網楊又肇

Meta稍早公布可處理長文內容的Llama 2 Long大型自然語言模型，建立在可對應32768組標記 (token)、700億個參數情況下，並且在整體表現優於同樣可處理長文內容的GPT-3.5-Turbo-16K版本。

Llama 2 Long強項在於處理長文內容，並且對應前後文關聯，藉此對應更複雜、多樣性的人工智慧互動處理需求，其中包含聊天機器人自然互動，或是對於內容繁多的文件分析等。

而先前可對應長文內容的大型自然語言模型，幾乎都是以商業應用為主，因此Meta此次提出Llama 2 Long，將建立在Llama 2本身為開源模型的基礎上，同樣以開源形式提供更多研究人員、開發者使用。

而訓練方式，則是以Llama 2為基礎，額外透過4000億個標記進行預先訓練，同時再將這些標記分成更多規模較小序列，例如進行70億組標記與130億組參數模型訓練時，便以32768組標記序列進行訓練，或是在300億、700億組參數模型訓練時，透過16384組標記訓練。

如此一來，則可讓Llama 2 Long在長文內容中的前後文對應有更好表現，甚至在內容長度增加時，可對應前後文的幅度也會跟著增加，如此一來即可對應複雜程式開發、內容分析描述，或是對應更複雜的對話互動，同時也能以相對更低成本訓練大型自然語言模型。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

📌 數位新聞這裡看！

推薦文章