DeepSeek拚進化 背書、思考分流

聯合報 特派記者陳政錄/北京報導
大陸人工智慧(AI)新創公司深度求索(DeepSeek)發表「條件記憶模組」論文,被視為 DeepSeek V4 技術前哨。圖/路透社

大陸人工智慧公司深度求索(DeepSeek)近年爆紅,如今在傳出可能於二月發布新一代旗艦AI模型DeepSeek V4之際,DeepSeek在前日深夜發表新論文,聚焦大模型的條件記憶模塊,即透過分工優化算力,來提升新模型效率,讓它又快又聰明,被業內認為是對V4模型技術架構的預告。

DeepSeek這次發表新論文是與北京大學合作完成,作者列有DeepSeek創始人梁文鋒的署名,名稱為「基於條件查找的條件記憶:大型語言模型稀疏性的新維度」。

綜合第一財經、科創板日報等報導,論文出發點來自大模型通常包含兩種性質不同的任務,一種是需要深度動態計算的組合推理,另一種則是檢索靜態知識,而現有架構處理推理和固定知識的方法,效率較低且浪費算力。

DeepSeek團隊提出條件記憶(conditional memory),並透過Engram這一條件記憶模塊實現「記憶分離」的分工優化,例如有記憶模塊專門管固定知識,推理模塊負責思考,再按照最佳比例分配資源,提升算力和效率,讓模型能夠又快又聰明。論文最後稱,條件記憶將成為下一代稀疏模型不可或缺的建模原語。

近期有科技媒體透露,DeepSeek V4旗艦模型有望於今年二月推出。業內人士認為,前述論文提出的內容或許就是V4的技術架構。

📌 數位新聞搶鮮看!

 訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 iPhone輸入法選字超怪!改「辭典」設定馬上救回來 連語音輸入也改善
📢 未使用仍爆炸行動電源確認!神腦國際5年前曾主動召回 家中有這些型號也要注意
📢 全台冷颼颼!家中電暖器怎接才安全 內行籲先檢查1事、用錯恐短路釀災
📢 全家羅技3C福袋值得買?她開出耳機勉強回本嘆「空虛」 超搶手但評價兩極
📢 快檢查千萬大獎!蘋果App Store發票不會自動兌獎 1動作增加中獎機會
📢 台灣電影院APP在比爛?他發現少有影城高於2顆星 這家上次更新在6年前

DeepSeek

推薦文章

留言