人工智慧 聊天機器人 「ChatGPT」火遍全球之際,大陸也已研製出自產的首個類似模型,由復旦大學團隊研製的對話模型名為「MOSS」,目前還在內測階段。
據上觀新聞從復旦大學自然語言處理實驗室獲悉,大陸第一個對話式大型語言模型MOSS已由復旦大學計算機科學技術學院邱錫鵬教授團隊發布至公開平台,邱錫鵬表示:「儘管MOSS還有很大改善空間,但它的問世證明了在開發類ChatGPT產品的路上,國內科研團隊有能力克服技術上的重要挑戰」。
在開發的基本步驟上,MOSS與ChatGPT一樣,包括自然語言模型的基座訓練、理解人類意圖的對話能力訓練兩個階段。不過相較於對話能力訓練階段,OpenAI收集了至少幾十萬條人類指令,讓各行各業的專業標注員寫出指令回覆,再將它們輸入模型基座;復旦團隊則採用不同的路線,通過讓MOSS和人類以及其他對話模型都進行交互,提升了學習效率和研發效率,短時間內就完成對話能力訓練。
邱錫鵬坦言,「MOSS與ChatGPT的差距主要在自然語言模型基座預訓練這個階段。MOSS的參數量比ChatGPT小一個數量級,在任務完成度和知識儲備量上,還有很大提升空間」。
而科研團隊指出,「MOSS的英文回答水準比中文高,因為它的模型基座學習了3,000多億個英文單詞,中文詞語只學了約300億個」。目前,MOSS的最大缺陷是中文水平不夠高,主要原因是網路上中文網頁干擾資訊如廣告很多,「清洗難度很大」。復旦大學自然語言處理實驗室正在加速推進中文語料的清洗工作,並將清洗後的高品質中文語料用於下一階段模型訓練。
目前MOSS已進入內測階段,內測將在使用者許可的情況下獲取資料,還將收集使用者的回饋意見,希望借此大幅增強MOSS的對話能力。不過,20日晚間大陸社交媒體上出現截圖,顯示該平台「服務器流量過載,請明天上午重試」。隨後平台官網解釋稱「計算資源不足以支持如此大的訪問量」、並為「給大家造成非常不好的體驗和第一印象」而致歉。
上述聲明還指出,「儘管我們的對話模型和《流浪地球》中MOSS的能力不能相提並論,但就像過去NLP領域的其他優秀模型一樣,作者們都希望使用自己喜歡的影視角色名稱命名自己的模型」,透露MOSS的命名是源於電影《流浪地球2》。