
Meta稍早公布可處理長文內容的Llama 2 Long大型自然語言模型,建立在可對應32768組標記 (token)、700億個參數情況下,並且在整體表現優於同樣可處理長文內容的GPT-3.5-Turbo-16K版本。
Llama 2 Long強項在於處理長文內容,並且對應前後文關聯,藉此對應更複雜、多樣性的人工智慧互動處理需求,其中包含聊天機器人自然互動,或是對於內容繁多的文件分析等。
而先前可對應長文內容的大型自然語言模型,幾乎都是以商業應用為主,因此Meta此次提出Llama 2 Long,將建立在Llama 2本身為開源模型的基礎上,同樣以開源形式提供更多研究人員、開發者使用。
而訓練方式,則是以Llama 2為基礎,額外透過4000億個標記進行預先訓練,同時再將這些標記分成更多規模較小序列,例如進行70億組標記與130億組參數模型訓練時,便以32768組標記序列進行訓練,或是在300億、700億組參數模型訓練時,透過16384組標記訓練。
如此一來,則可讓Llama 2 Long在長文內容中的前後文對應有更好表現,甚至在內容長度增加時,可對應前後文的幅度也會跟著增加,如此一來即可對應複雜程式開發、內容分析描述,或是對應更複雜的對話互動,同時也能以相對更低成本訓練大型自然語言模型。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
📌 數位新聞這裡看!
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 「找車位神器」3秒搜出停車格!5縣市可用 駕駛實測嘆:相見恨晚
📢網紅「小周牙醫」歧視同志言論挨轟!道歉被網抓包IG、YT秒做1事:沒誠意
📢 Switch 2台北體驗會7/5登場!抽選制、超詳細報名規則曝
📢 ASUS VivoWatch 6 AERO智慧手環開箱!指尖量心電圖 睡眠追蹤曝「9成全淺眠」
📢 YouTube會員台灣便宜雙人方案來了!價格比印度貴近4倍 規則一次看
📢 獨/等到iPhone嗶進站!蘋果iOS18.4開放台灣NFC交易 悠遊卡公司回應了