中國大陸首個官方「大模型標準符合性評測」結果22日公布,首批通過測試的大模型共4家,分別為阿里通義千問 、騰訊混元大模型、360智腦和百度 文心一言 。
綜合IT之家、界面新聞報導,「大模型標準符合性評測」由中國電子技術標準化研究院發起,旨在建立中國大模型標準符合性名錄,引領人工智慧 產業健康有序發展。此評測對外徵集了學術界、產業界數十家頭部單位意見,涵蓋評估語言大模型通用性、智能性、安全性等38項具體面向,是基於官方大模型測試基準的權威評測。
經測試,上述4家企業大模型符合「人工智慧大規模與訓練模型 第2部分:評測指標與方法」語言大模型的相關技術要求。
報導指出,阿里「通義千問」是本次通過的大模型中唯一的開源模型。通義千問72B號稱自12月1日開源後,先後登頂HuggingFace排行榜、上海人工智慧實驗室Open Compass榜單。
騰訊「混元」大模型號稱擁有超千億參數規模、預訓練語料超2兆tokens,具備強大的中文創作能力。並在今年10月開放「文生圖」功能。
「360智腦」是中國大陸首個原生安全的大模型,預訓練超兆級tokens,具備生成創作、多輪對話、邏輯推理等十大核心能力、數百項細分功能,能夠涵蓋大模型應用的所有場景。已在金融、醫療、教育等近20個產業陸續運用。
百度「文心一言」則是大陸最早進入生成式AI 跟佈局大型語言模型的陸企,今年3月率先推出文心一言後。官方更稱,最新文心一言3.5版本在綜合能力得分上超過了ChatGPT ,並在多個中文功能方面表現優於GPT-4 。
文心一言已於8月率先通過大陸「生成式人工智慧服務管理暫行辦法」備案,成為首批向公眾開放的生成式人工智慧聊天機器人 之一。
據報導,在評測結果揭曉當天,阿里雲、騰訊雲分別以技術牽頭方、提案主導方的身份啟動了「人工智慧模型即服務(MaaS)功能要求」的討論與編制。
這項提案詳細規定了MaaS系統的設計、實現、部署和使用,涵蓋了使用者層、存取層、服務層、跨層功能、營運支援和安全系統等多維度,旨在規範MaaS領域的標準化工作,為產業的高品質發展注入活力。