聯發科宣布,由旗下前瞻技術研究單位聯發創新基地,攜手中央研究院詞庫小組和國家教育研究院組成研究團隊,對外開源釋出全球第一款以繁體中文建造的語言模型,讓眾人取用測試。
本次公開釋出開源的繁體中文大型語言模型,是以具備1760億個參數的開源語言模型BLOOM為基礎,相比目前開源可用的最大繁體中文模型大1000倍,所使用的訓練資料也多1000倍。
目前此語言模型已經公開讓外界下載,可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等。
聯發創新基地負責人許大山博士表示: 「大型語言模型是近年來人工智慧技術進步的亮點,更是未來進步不可或缺的基石。聯發科技向來重視創新及科技發展,此次結合中研院及國教院,成為台灣極少數能訓練大型語言模型的團隊,以透明、開放和包容的方式,善用技術、人才及資源,既發展自主訓練大型人工智慧模型的能力,也讓繁體中文的大型語言模型研究及應用更為普及。」
現行開放原始碼釋出的大型語言模型,多數仍以英文為主,繁體中文的語言模型相對不足,因此中央研究院詞庫小組在2019年投入開發,並且公開BERT和GPT-2的繁體中文最佳化版本,但是因為資料量的差距,這些模型與主流的大型語言模型差距越來越大。
有鑑於開放原始碼繁體中文大型語言模型的重要性與迫切性,聯發創新基地、中央研究院和國家教育研究院在2022年5月展開合作計畫,使用大型語言模型BLOOM的繁體中文模型再訓練與最佳化。
目前開放系列中第一個有量級跳躍意義的繁體中文語言模型,聯發創新基地也暫備一個行動版網頁介面,供語言模型研究者試用。此模型系列的評量指標,以及參數量更大 (176B)的模型,將會陸續開放下載。
為了建立該項語言模型,國家教育研究院提供了大量高品質的繁體中文語料,作為主要的訓練材料。聯發創新基地則建置了訓練的硬體環境,制訂各種符合國際標準的繁體中文評量指標,收集更近期的語料,並對模型進行能更有效讀懂使用者的指示(prompt)的特別訓練。
中央研究院詞庫小組則針對模型生成的文字是否具有偏見,或是敵意等不合適的內容,進行自動偵測與改正的研究與評估。評估結果表明,這套由三方提供的一系列繁體中文語言模型,均達到開源模型前所未有的效果,較能避免具有偏見或敵意的內容。
大型語言模型近來的蓬勃發展,源自於2019年Google推出的BERT語言模型,以及同年OpenAI開始推出的一系列GPT語言模型。這些大型語言模型已經被證實具備相當的知識與能力,即使在少量訓練資料,甚至無訓練資料之下也依然能夠對新任務產生正確結果,已經成為人工智慧往前進化不可或缺的基礎。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 嚇慘!LINE相簿驚見「陌生人大眼鬼影照」 官方認了曝3步驟解決
📢 LINE免費貼圖7款來了!可愛動物亂鬥 馬來貘、小薩、狗幾、喔熊慶耶誕
📢 LINE內建表情貼不見了?官方大改版網嚇「變好色又變醜」 1方法恢復舊版本
📢 【開箱】ROG Phone 9 Pro Edition!LED炫砲又低調「I人不害羞」
📢 出門玩不怕迷路!教你用Google Maps看「實景」找路 每次用每次成功
📢 CASETiFY胡子碰碰手機殼2款可愛開箱!台式早餐圖案聞香 磁吸卡套支架極速感應