Google 研究團隊宣布推出全新VaultGemma模型,號稱是目前最強大、完全從零開始訓練,並且具備差分隱私 (Differential Privacy, DP)保護的大型語言模型 ,更同步釋出模型權重至Hugging Face和Kaggle平台,讓開發者與學界能自由使用、驗證與改進。
隨著生成式AI 深入日常,隱私保護成為AI發展的重要課題。差分隱私透過在訓練過程中加入「噪聲」,降低模型記憶個別資料的風險,但也會帶來訓練穩定性下降、批次規模與運算成本增加等挑戰。
Google表示,此次與DeepMind合作進行的研究首度建立起「差分隱私模型縮放定律」 (scaling laws),能精確預測在不同運算、隱私、資料預算下的最佳訓練配置,成為訓練高效能 差分隱私模型的重要指南。
VaultGemma 採用10億組參數規模設計,是以Gemma 2為基礎的全新版本。Google研究團隊透過系統化實驗,量化模型大小、訓練迭代次數與噪聲比率之間的關係,並且指出差分隱私訓練下最佳策略是「以更小模型搭配更大批次訓練」。透過此策略,VaultGemma得以在更高隱私保護下達成接近非隱私模型的效能,與五年前的非差分隱私模型相比幾乎無差距。
在技術層面,VaultGemma採用可擴展的DP-SGD演算法,並且改進Poisson抽樣方式,使每個批次大小一致,同時保留強隱私保障。最終模型達到 (ε ≤ 2.0, δ ≤ 1.1e-10)的序列級差分隱私保護,確保即便單一訓練樣本遭查詢,也幾乎無法被模型重現。而Google也進行記憶化測試,結果顯示VaultGemma幾乎不會「背書」任何訓練資料。
Google指出,雖然目前差分隱私模型效能仍略遜於完全非隱私版本,但已成功縮小差距,並且有明確研究路線可進一步改善。VaultGemma不僅展現Google對隱私保護運作的長期承諾,也為業界與學界提供一個可重現、可驗證的基準,推動下一代「以隱私為核心」的AI發展。
對開發者來說,VaultGemma的釋出不僅提供訓練好的模型,也附上完整技術報告與最佳化建議,方便企業和研究團隊根據自身計算與隱私需求進行調整。這意味著未來有望看到更多企業能以較低的隱私風險導入AI,滿足法規要求並保護用戶資料,同時仍享有高效能模型的好處。
Google最後強調,VaultGemma只是第一步,未來會持續改進差分隱私訓練機制,進一步提升效能,並且降低運算門檻,讓「既安全又聰明」的AI成為市場常態。
VaultGemma、非差分隱私的Gemma,以及早期GPT-2模型的參數與效能表現比較:
| 模型 | VaultGemma 1B | Gemma 3 1B | GPT-2 1.5B |
| 參數規模 | 10億參數 | 10億參數 | 15億參數 |
| 隱私保護 | 差分隱私 (ε ≤ 2.0, δ ≤ 1.1e-10) | 無差分隱私 | 無差分隱私 |
| 訓練方式 | DP-SGD + Poisson抽樣優化 | 標準非DP訓練 | 傳統大批次非DP訓練 |
| 效能表現 (相對於非DP模型) | 接近5年前非DP模型 (GPT-2同級) | 略高於VaultGemma | 低於現代非DP模型,但與VaultGemma相近 |
| 資料記憶風險 | 幾乎無檢測到記憶化 | 有一定記憶化風險 | 高記憶化風險 (已多次被驗證) |
| 發布狀態 | 已釋出,開源 (Hugging Face & Kaggle) | 已釋出,開源 | 歷史模型,公開可下載 |
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 POCO F8 Ultra開箱!驚豔Bose低音砲 實測鏡頭拍峇里島日出、捕捉厭世猴群
📢 LINE吃200GB空間!刪1群組「全當機」靠它救回 他曝安心刪除方法
📢 iPhone用戶小心!他「打FaceTime」慘交5700元電話費 改1設定防中招
📢 iPhone 18系列「史上最難選」!打破賈伯斯策略 選機方式大變動
📢 DJI Neo 2開箱!實測新手操作 空拍日出、環繞、跟拍1秒上手
📢 懶人包/LINE帳號換機方法一文看懂!開始前檢查3件事、1錯誤害資料救不回
