蘋果 機器學習研究團隊科學家Vaishaal Shankar稍早於「X」表示,分別釋出兩組小規模的開源人工智慧 模型 ,均隸屬於「DCLM」 (DataComp for Language Models)發展項目,分別對應69億組參數及14億組參數,強調能與Mistral AI的70億組參數規模人工智慧模型,以及Meta提出的Llama 3、Google的Gemma、阿里雲的開源模型Qwen2直接抗衡。
同時,Vaishaal Shankar更標榜「DCLM」為真正形式上的開源模型,其中69億組參數版本是基於OpenLM框架,以2.5兆個詞元 (token)進行訓練,前後文長度各可對應2K組詞元,在大規模、多任務的語言理解 (MMLU,Massive Multitask Language Understanding)測試達63.7%,超過Mistral-7B-v0.3的62.7%表現,並且貼近Meta Llama3 8B的66.2%、Google Gemma的64.3%),以及微軟Phi-3的69.9%,另外也以更少算力完成相關測試。
而在14億組版本,蘋果則是與Toyota研究團隊共同訓練,並且以2.6兆組詞元數量進行訓練,在大規模、多任務的語言理解測試達41.9%,超過微軟Phi-1.5B的35.90%。
We have released our DCLM models on huggingface! To our knowledge these are by far the best performing truly open-source models (open data, open weight models, open training code) 1/5
— Vaishaal Shankar (@Vaishaal)July 18, 2024
另外,蘋果方面也在69億組參數規模的人工智慧模型基礎下,將前後文長度支援至8K組詞元,在在大規模、多任務的語言理解的表現基本維持不變,意味相比語言模型框架設計,用於訓練的資料集設計將變得更加重要。
目前「DCLM」計畫以開源形式與業界研究人員合作,目前合作對象包含華盛頓大學、特拉維夫大學與Toyota研究中心,但目前在「DCLM」計畫研究項目並不會用於蘋果市售產品,避免引發不必要的爭議,目前作為研究為主。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 eneloop充電電池開箱!實測高續航力ㄅ級分 絕配富士instax mini 41 拍立得
📢 便宜資費懶人包/5G 399元比4G便宜 新方案「每月加100」上網升級
📢 三星爆有4款新摺疊機!神祕新機型號現身 傳為平價Galaxy Z Fold8 FE
📢 LINE免費貼圖!報稅「錢錢再見」、PASS拒絕哏圖好用 還有蠟筆小新快下載
📢 買預付卡出國漫遊…回國竟涉詐欺案 釣出一票人「忽略SIM卡1事」全中獎
📢 懶人包/預付卡有使用期限嗎?出國漫遊用完SIM卡可丟嗎?QA一次看

討論區