美國對中國大陸實施晶片 制裁措施,正促使大陸科技業者加速研發不仰賴最新美國晶片的先進人工智慧 (AI )技術。
華爾街日報檢視研究論文並採訪員工後發現,大陸業者正在研究利用更少、威力沒那麼強大的半導體,就能達成最先進AI性能的技術,同時研究如何組合不同類型的晶片,避免只仰賴單一類型晶片。
包括華為、百度與阿里巴巴,都是想辦法從現有電腦晶片發掘更多用處的業者。
研究人員和分析師表示,利用這些變通的方法來追上美國AI領導業者,實際上仍是一大挑戰,但一些實驗顯示出,若取得成功,這些研究可讓大陸科技業者同時挺過美國的制裁措施,並且在面對未來的限制措施時,自身將更具韌性。
華為和百度不願置評,阿里巴巴則沒有回覆置評請求。
隨著要將ChatGPT 這類模型商業化的競賽升溫,全球企業需要更多威力強大的晶片,同時還要想辦法竭力善用這些晶片,以便壓低這些飆高中的AI研發成本。
對陸企來說,這是個極關鍵的問題,因為美國的制裁措施讓他們沒辦法取得像是輝達(Nvidia)製的最先進晶片,此外,員工、AI研究人員和產業分析師表示,陸企已迅速消耗掉現有的美國晶片來打造與ChatGPT相類似的軟體。
臉書母公司Meta Platforms的AI基礎架構與大型語言模型研究人員張蘇珊(Susan Zhang,音譯)表示:「可從字裡行間看出他們試圖尋找世界上任何一種運算方式來彌補先進硬體的不足。」
北京最高決策機構上月表示,中國應鼓勵AI研發創新;美國拜登政府在去年10月全面限制向大陸供應晶片後,已明示未來可能進一步實施限制措施。
陸企現在無法取得目前最受業界歡迎的AI開發晶片A100晶片,以及3月推出的新一代版本、能提供更多算力的H100晶片。
不過,輝達為大陸市場創造出降級版的晶片,分別是A800與H800,兩款修改後的晶片降低晶片與晶片之間的溝通能力。這些產品可為開發小型AI模型提供有效的替代方法,這類小型AI模型就像是驅動短影片App抖音(TikTok)的推薦演算法所使用的模型。不過,這類晶片無法用於發展大型AI模型,因為大型AI模型需要數百或數千個晶片共同協力運作,舉例來說,瑞銀分析師估計訓練像ChatGPT的AI模型,需要5,000至10,000個A100晶片來進行訓練。
與大陸政府與關的半導體產業協會的調查顯示,在大陸境內可用於訓練大型AI模型的A100晶片大約有4萬個至5萬個,顯示供應吃緊。知情人士說,在美國制裁前就已囤積A100晶片的阿里巴巴與百度等業者已嚴格限制內部使用外國的先進晶片,把這些晶片保留用於需要強力運算的任務。
根據開源研究論文和知情人士透露,百度近年來一直尋求將海光信息的DCU、華為的AI訓練晶片Ascend以及自家的崑崙晶片等國產晶片整合到AI研發中。一些知情人士說,許多陸產晶片在訓練大規模模型時仍然不可靠,因為容易癱瘓。
另據經營AI基礎設施公司HPC-AI Tech的新加坡大學教授尤洋的說法,許多陸企正試圖把三或四種沒那麼先進的晶片組合在一起,來模擬輝達最先進處理器的性能。
例如在4月,騰訊就公布一套新的運算群,即使用輝達H800晶片進行大型AI模型訓練的一組連結晶片。
尤洋說,這種做法可能甚耗成本,例如一家美企若需要1,000個H100晶片來訓練大型語言模型,那麼一家陸企便需要3,000個以上的H800晶片來達成同樣成果。
雖然在全球研究圈中仍不太使用這類方法,而且難以實行,但大陸研究人員取得一些進展。例如華為研究人員在3月的一篇論文中展示如何只利用該公司的Ascend晶片、而不使用輝達的晶片,來訓練華為最新一代大型語言模型。儘管存在缺點,但這個名為PanGu-Σ的模型已達到一些華語任務的先進性能表現,包括閱讀理解和文法問題。