陸官方大模型評測百度文心一言、阿里通義千問4家通過

2023-12-23 14:34 聯合報記者陳宥菘／即時報導

中國大陸首個官方「大模型標準符合性評測」結果22日公布，首批通過測試的大模型共4家，分別為阿里通義千問、騰訊混元大模型、360智腦和百度文心一言。

綜合IT之家、界面新聞報導，「大模型標準符合性評測」由中國電子技術標準化研究院發起，旨在建立中國大模型標準符合性名錄，引領人工智慧產業健康有序發展。此評測對外徵集了學術界、產業界數十家頭部單位意見，涵蓋評估語言大模型通用性、智能性、安全性等38項具體面向，是基於官方大模型測試基準的權威評測。

經測試，上述4家企業大模型符合「人工智慧大規模與訓練模型第2部分：評測指標與方法」語言大模型的相關技術要求。

報導指出，阿里「通義千問」是本次通過的大模型中唯一的開源模型。通義千問72B號稱自12月1日開源後，先後登頂HuggingFace排行榜、上海人工智慧實驗室Open Compass榜單。

騰訊「混元」大模型號稱擁有超千億參數規模、預訓練語料超2兆tokens，具備強大的中文創作能力。並在今年10月開放「文生圖」功能。

「360智腦」是中國大陸首個原生安全的大模型，預訓練超兆級tokens，具備生成創作、多輪對話、邏輯推理等十大核心能力、數百項細分功能，能夠涵蓋大模型應用的所有場景。已在金融、醫療、教育等近20個產業陸續運用。

百度「文心一言」則是大陸最早進入生成式AI跟佈局大型語言模型的陸企，今年3月率先推出文心一言後。官方更稱，最新文心一言3.5版本在綜合能力得分上超過了ChatGPT，並在多個中文功能方面表現優於GPT-4。

文心一言已於8月率先通過大陸「生成式人工智慧服務管理暫行辦法」備案，成為首批向公眾開放的生成式人工智慧聊天機器人之一。

據報導，在評測結果揭曉當天，阿里雲、騰訊雲分別以技術牽頭方、提案主導方的身份啟動了「人工智慧模型即服務（MaaS）功能要求」的討論與編制。

這項提案詳細規定了MaaS系統的設計、實現、部署和使用，涵蓋了使用者層、存取層、服務層、跨層功能、營運支援和安全系統等多維度，旨在規範MaaS領域的標準化工作，為產業的高品質發展注入活力。

阿里通義千問、騰訊混元大模型、360智腦和百度文心一言等4家成為首批通過官方大模型測試的企業。（取自C114通訊網）

📌 數位新聞搶鮮看！

文心一言通義千問百度機器人人工智慧 AI ChatGPT GPT-4

推薦文章