還記得閱讀超長篇文章時,常常讀了後面忘前面的困擾嗎?現在連AI也想解決這個問題。Google 研究團隊稍早發表了兩項突破性的技術——Titans架構與MIRAS框架,旨在讓AI模型 在處理海量內容時,能像人腦 一樣「邊讀邊記」,即時更新核心記憶。
這項創新不僅解決傳統Transformer模型面對超長序列時的計算成本瓶頸,更在極限長文本推理測試中,展現出超越GPT-4 的驚人實力,甚至能輕鬆應對高達200萬個標記 (Tokens) 的上下文。
Titans :把記憶體換成深度神經網路
傳統的循環神經網路 (RNN) 往往使用固定大小的向量來儲存記憶,這就像是只給學生一張便條紙做筆記,寫滿了就得擦掉舊的。而Titans架構最核心的創新,在於引入了一個全新的長期記憶 模組。
這個模組本身就是一個深度神經網路 (多層感知器),設計理念源自人腦短期與長期記憶的分離機制。這賦予AI模型更高的表達能力,讓它不是死記硬背,而是能理解並綜合整個敘事脈絡,主動學習如何保留關鍵資訊。
模仿人腦的「驚訝度指標」:越意外,記越牢
Titans架構決定「什麼該記、什麼該忘」的機制相當有趣,團隊稱之為「驚訝度指標」 (Surprise metric)。
其模仿人類 的心理學機制:我們容易遺忘例行公事,但對意外事件印象深刻。在Titans架構中,當新輸入的資訊與模型預期的記憶狀態差異 巨大 (例如在嚴肅財報中突然出現香蕉皮圖片),其梯度 (驚訝度)就會飆升,模型便會優先將此資訊存入長期記憶。
搭配動量機制與自適應權重衰減 (遺忘閘門),Titans架構能有效捕捉具延續性的重要資訊,同時捨棄不再需要的舊資料,確保在處理超長序列時保持高效。
MIRAS 框架:萬法歸宗,打破均方誤差限制
與Titans架構同步發表的MIRAS框架,則提供一個統一的理論視角。它將序列建模視為解決同一問題的不同方法:如何有效結合新舊資訊。
MIRAS框架突破過往模型過度依賴「均方誤差」的限制,允許創建非歐幾里得目標函數的新穎架構。研究團隊利用此框架開發「YAAD」、「MONETA」與「MEMORA」三種變體模型,分別針對抗噪聲、穩定長期記憶等不同需求進行最佳化。
實測表現:200萬組標記輕鬆扛,小參數戰勝大模型
在實際效能驗證上,Titans架構與MIRAS框架變體在語言建模與常識推理任務中,均優於Mamba-2、Transformer++等現有領先架構。
最令人驚豔的是在BABILong極限長文本基準測試中,面對分散在超長文檔中的事實推理挑戰,Titans架構展現了驚人的統治力,即便參數量遠小於GPT-4,其推理表現卻更為優異,並且能有效擴展至超過200萬組標記的上下文視窗。這意味著未來在全文檔理解、甚至基因組分析等領域,AI將能展現出前所未有的「過目不忘」能力。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
