18+

Google太威!發表AI全新2架構如人腦 可即時更新深度記憶「邊讀邊記」

還記得閱讀超長篇文章時,常常讀了後面忘前面的困擾嗎?現在連AI也想解決這個問題。Google 研究團隊稍早發表了兩項突破性的技術——Titans架構與MIRAS框架,旨在讓AI模型 在處理海量內容時,能像人腦 一樣「邊讀邊記」,即時更新核心記憶。

這項創新不僅解決傳統Transformer模型面對超長序列時的計算成本瓶頸,更在極限長文本推理測試中,展現出超越GPT-4 的驚人實力,甚至能輕鬆應對高達200萬個標記 (Tokens) 的上下文。

Titans :把記憶體換成深度神經網路

傳統的循環神經網路 (RNN) 往往使用固定大小的向量來儲存記憶,這就像是只給學生一張便條紙做筆記,寫滿了就得擦掉舊的。而Titans架構最核心的創新,在於引入了一個全新的長期記憶 模組。

這個模組本身就是一個深度神經網路 (多層感知器),設計理念源自人腦短期與長期記憶的分離機制。這賦予AI模型更高的表達能力,讓它不是死記硬背,而是能理解並綜合整個敘事脈絡,主動學習如何保留關鍵資訊。

模仿人腦的「驚訝度指標」:越意外,記越牢

Titans架構決定「什麼該記、什麼該忘」的機制相當有趣,團隊稱之為「驚訝度指標」 (Surprise metric)。

其模仿人類 的心理學機制:我們容易遺忘例行公事,但對意外事件印象深刻。在Titans架構中,當新輸入的資訊與模型預期的記憶狀態差異 巨大 (例如在嚴肅財報中突然出現香蕉皮圖片),其梯度 (驚訝度)就會飆升,模型便會優先將此資訊存入長期記憶。

搭配動量機制與自適應權重衰減 (遺忘閘門),Titans架構能有效捕捉具延續性的重要資訊,同時捨棄不再需要的舊資料,確保在處理超長序列時保持高效。

MIRAS 框架:萬法歸宗,打破均方誤差限制

與Titans架構同步發表的MIRAS框架,則提供一個統一的理論視角。它將序列建模視為解決同一問題的不同方法:如何有效結合新舊資訊。

MIRAS框架突破過往模型過度依賴「均方誤差」的限制,允許創建非歐幾里得目標函數的新穎架構。研究團隊利用此框架開發「YAAD」、「MONETA」與「MEMORA」三種變體模型,分別針對抗噪聲、穩定長期記憶等不同需求進行最佳化。

實測表現:200萬組標記輕鬆扛,小參數戰勝大模型

在實際效能驗證上,Titans架構與MIRAS框架變體在語言建模與常識推理任務中,均優於Mamba-2、Transformer++等現有領先架構。

最令人驚豔的是在BABILong極限長文本基準測試中,面對分散在超長文檔中的事實推理挑戰,Titans架構展現了驚人的統治力,即便參數量遠小於GPT-4,其推理表現卻更為優異,並且能有效擴展至超過200萬組標記的上下文視窗。這意味著未來在全文檔理解、甚至基因組分析等領域,AI將能展現出前所未有的「過目不忘」能力。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱