蘋果釋出兩組小規模開源人工智慧模型超越Mistral、直追Meta與Google推出同級產品

2024-07-23 08:14

聯合新聞網／ 楊又肇

蘋果機器學習研究團隊科學家Vaishaal Shankar稍早於「X」表示，分別釋出兩組小規模的開源人工智慧 模型，均隸屬於「DCLM」 (DataComp for Language Models)發展項目，分別對應69億組參數及14億組參數，強調能與Mistral AI的70億組參數規模人工智慧模型，以及Meta提出的Llama 3、Google的Gemma、阿里雲的開源模型Qwen2直接抗衡。

同時，Vaishaal Shankar更標榜「DCLM」為真正形式上的開源模型，其中69億組參數版本是基於OpenLM框架，以2.5兆個詞元 (token)進行訓練，前後文長度各可對應2K組詞元，在大規模、多任務的語言理解 (MMLU,Massive Multitask Language Understanding)測試達63.7%，超過Mistral-7B-v0.3的62.7%表現，並且貼近Meta Llama3 8B的66.2%、Google Gemma的64.3%)，以及微軟Phi-3的69.9%，另外也以更少算力完成相關測試。

而在14億組版本，蘋果則是與Toyota研究團隊共同訓練，並且以2.6兆組詞元數量進行訓練，在大規模、多任務的語言理解測試達41.9%，超過微軟Phi-1.5B的35.90%。

We have released our DCLM models on huggingface! To our knowledge these are by far the best performing truly open-source models (open data, open weight models, open training code) 1/5

— Vaishaal Shankar (@Vaishaal)July 18, 2024