18+

兼顧隱私與效能!Google推出史上最強差分隱私大型語言模型VaultGemma

▲Google研究團隊宣布推出全新VaultGemma模型
▲Google研究團隊宣布推出全新VaultGemma模型

Google 研究團隊宣布推出全新VaultGemma模型,號稱是目前最強大、完全從零開始訓練,並且具備差分隱私 (Differential Privacy, DP)保護的大型語言模型 ,更同步釋出模型權重至Hugging Face和Kaggle平台,讓開發者與學界能自由使用、驗證與改進。

隨著生成式AI 深入日常,隱私保護成為AI發展的重要課題。差分隱私透過在訓練過程中加入「噪聲」,降低模型記憶個別資料的風險,但也會帶來訓練穩定性下降、批次規模與運算成本增加等挑戰。

Google表示,此次與DeepMind合作進行的研究首度建立起「差分隱私模型縮放定律」 (scaling laws),能精確預測在不同運算、隱私、資料預算下的最佳訓練配置,成為訓練高效能 差分隱私模型的重要指南。

▲差分隱私縮放定律的結構,Google指出預測損失可以主要使用模型大小、迭代次數...
▲差分隱私縮放定律的結構,Google指出預測損失可以主要使用模型大小、迭代次數和雜訊批次比來精確建模,進而簡化計算、隱私和資料預算之間的複雜交互作用

VaultGemma 採用10億組參數規模設計,是以Gemma 2為基礎的全新版本。Google研究團隊透過系統化實驗,量化模型大小、訓練迭代次數與噪聲比率之間的關係,並且指出差分隱私訓練下最佳策略是「以更小模型搭配更大批次訓練」。透過此策略,VaultGemma得以在更高隱私保護下達成接近非隱私模型的效能,與五年前的非差分隱私模型相比幾乎無差距。

在技術層面,VaultGemma採用可擴展的DP-SGD演算法,並且改進Poisson抽樣方式,使每個批次大小一致,同時保留強隱私保障。最終模型達到 (ε ≤ 2.0, δ ≤ 1.1e-10)的序列級差分隱私保護,確保即便單一訓練樣本遭查詢,也幾乎無法被模型重現。而Google也進行記憶化測試,結果顯示VaultGemma幾乎不會「背書」任何訓練資料。

▲就噪音批次比的影響而言,增加隱私預算 (epsilon)和運算預算 (批次大小...
▲就噪音批次比的影響而言,增加隱私預算 (epsilon)和運算預算 (批次大小)的邊際效益

Google指出,雖然目前差分隱私模型效能仍略遜於完全非隱私版本,但已成功縮小差距,並且有明確研究路線可進一步改善。VaultGemma不僅展現Google對隱私保護運作的長期承諾,也為業界與學界提供一個可重現、可驗證的基準,推動下一代「以隱私為核心」的AI發展。

▲VaultGemma 1B (差異隱私)與其非隱私版本 (Gemma3 1B)...
▲VaultGemma 1B (差異隱私)與其非隱私版本 (Gemma3 1B),以及較早的基線 (GPT-2 1.5B)的效能比較,結果量化當前隱私所需的資源投入,並且顯示現代差分隱私訓練產生的效用與大約五年前的非隱私模型相當。

對開發者來說,VaultGemma的釋出不僅提供訓練好的模型,也附上完整技術報告與最佳化建議,方便企業和研究團隊根據自身計算與隱私需求進行調整。這意味著未來有望看到更多企業能以較低的隱私風險導入AI,滿足法規要求並保護用戶資料,同時仍享有高效能模型的好處。

Google最後強調,VaultGemma只是第一步,未來會持續改進差分隱私訓練機制,進一步提升效能,並且降低運算門檻,讓「既安全又聰明」的AI成為市場常態。

VaultGemma、非差分隱私的Gemma,以及早期GPT-2模型的參數與效能表現比較:

模型VaultGemma 1BGemma 3 1BGPT-2 1.5B
參數規模10億參數10億參數15億參數
隱私保護差分隱私 (ε ≤ 2.0, δ ≤ 1.1e-10)無差分隱私無差分隱私
訓練方式DP-SGD + Poisson抽樣優化標準非DP訓練傳統大批次非DP訓練
效能表現 (相對於非DP模型)接近5年前非DP模型 (GPT-2同級)略高於VaultGemma低於現代非DP模型,但與VaultGemma相近
資料記憶風險幾乎無檢測到記憶化有一定記憶化風險高記憶化風險 (已多次被驗證)
發布狀態已釋出,開源 (Hugging Face & Kaggle)已釋出,開源歷史模型,公開可下載

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱