中國新創公司DeepSeek的模型成本引發熱議,並且造成股市震盪。研究機構SemiAnalysis今天發布報告指出,該公司至今在硬體繪圖處理器(GPU)上的支出遠超過5億美元(約新台幣160億元)。
SemiAnalysis指出,中國對沖基金幻方量化(High-Flyer)在2023年5月成立「深度求索」(DeepSeek)以推動AI技術研發,在此之前,幻方量化於2021年,也就是任何出口管制生效前,投資購買了1萬顆輝達(Nvidia)A100 GPU。
報告指出,該公司在GPU的投資上花費超過5億美元。
報告稱,輝達根據法規要求,生產了多款H100的變化版,如H800、H20。目前僅有H20可銷售給中國。輝達在過去9個月已生產超過100萬顆專供中國市場的H20 GPU。
報告分析顯示,DeepSeek的伺服器總資本支出(CapEx)約為16億美元。
報告提到,DeepSeek從中國本土招募人才,目前約有150名員工,正急速擴張。
DeepSeek的價格和效能這一週因出現模型訓練成本低於600萬美元的說法引起討論。報告強調預訓練成本僅是總成本一小部分,不代表完整支出。
DeepSeek論文中提到的600萬美元成本指的是預訓練運行(pre-training run)時的GPU成本,是模型總成本的一部分,未計入的重要支出還包括研發(R&D)、硬體總擁有成本(Total Cost of Ownership)等關鍵因素。
報告也提到DeepSeek能獲得大量算力資源與出口管制存在時間滯後(lag)有關。
美國智庫蘭德公司(RAND)研究員海姆(LennartHeim)近期分析,硬體的出口管制存在時間滯後,目前尚未完全發揮影響力。真正的考驗將出現在數據中心需要升級或擴展時,這對美國企業較為容易,但對受到出口管制的中國企業而言將是挑戰。
SemiAnalysis也評價指出,DeepSeek在開放權重模型上表現出色,超越Meta的Llama 、法國人工智慧新創公司Mistral AI、以及其他競爭者。
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 影/iPhone 17 Pro Max實機曝光!機身比16 Pro厚 相機模組神巨大
📢Sony WH-1000XM6藍牙耳機開箱!摺疊回歸、降噪驚豔「讓世界變安靜」
📢 任天堂Switch 2台灣7月10日上市開賣!試玩台北體驗會就能買 價格出爐
📢 注意!華碩路由器全球逾9千台遭入侵「重開機沒用」 用戶快做1事自保
📢 YouTube會員台灣便宜雙人方案來了!價格比印度貴近4倍 規則一次看
📢 你是「居然人」或「竟然人」?LINE都市傳說瘋傳 網搜對話狂讚:真的準