中國大陸人工智慧(AI)公司深度求索(DeepSeek )使用華為 晶片 訓練發生困難,被迫延後發表新模型,可見大陸推動自家技術來取代美國面臨瓶頸。
英國金融時報引述知情人士報導,DeepSeek今年1月推出R1模型後,在主管機關鼓勵下改用華為昇騰處理器(Ascend)來取代輝達 (NVIDIA)晶片。
但這家大陸新創公司以昇騰晶片訓練R2模型時持續遭遇技術問題,不得不改用輝達晶片來訓練,華為晶片則用於推理(inference)。報導指出,這正是新模型原定5月發表卻延後的主因。
金融時報引述大陸業界人士指出,大陸晶片在穩定性、晶片間連線速度和軟體水準方面都不如輝達的產品。
據報導,華為曾派出工程團隊進駐 DeepSeek辦公室,協助該公司使用昇騰晶片開發R2模型。但知情人士說,即使華為駐點支援,DeepSeek仍未能在昇騰晶片上成功完成一次訓練。
據知情人士透露,DeepSekk創辦人梁文峰曾在公司內部對R2進展表達不滿,並力促團隊投入更多時間打造更先進的模型,以維持該公司在AI領域的優勢。
據報導,R2延後問世,也跟新版模型數據標記(data labeling)作業超過預期有關。大陸媒體報導指出,R2模型可能最快在未來數周內發布。
加州大學柏克萊校區AI研究員 Ritwik Gupta 說:「模型就像商品,很容易被替換。許多開發者現在都在用阿里巴巴的「通義千問3」(Qwen3),功能強大又靈活。」
古普塔指出,通義千問3採用了DeepSeek的核心理念,例如能讓模型具備推理能力的訓練演算法,但在使用效率上做得更好。
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 便宜資費懶人包/5G 399元搶市!不限速吃到飽方案比4G划算
📢 CMF Headphone Pro耳罩式耳機開箱!實測動感滑桿聽見動ㄘ動、驚豔降噪高CP
📢 坐飛機遇行充自燃怎麼辦?專家曝溫度控制就用它:亂用1物會更慘
📢 iPhone鬧鐘「沒響」錯過航班!網紅抱怨引出一票苦主 2招避免中招
📢 HTC VIVE Eagle智慧眼鏡開箱!日本實測AI翻譯菜單 聽音樂驚豔、拍出日系照片
📢 懶人包/台灣吉伊卡哇常設店12月27日開幕!13樣新品、贈品、地點一次看
