Differentially Private Federated Learning: A Systematic Review

federated learning

martinyeung 2026-05-18 00:04:04 ‧ 115 瀏覽

分享至

Differentially Private Federated Learning: A Systematic Review (arXiv:2405.08299, 2024/2025)
差分隱私聯邦學習

核心問題與動機

核心問題：
傳統機器學習需集中資料，但現實中資料分散於多方參與者，受 GDPR、CCPA 等法規與商業競爭限制，無法直接分享原始資料。聯邦學習允許參與者本地訓練並僅上傳模型參數，解決資料孤島問題；然而，共享的模型更新仍可能遭受模型反演攻擊（model inversion）或成員推斷攻擊（membership inference），導致隱私洩露。
動機：
差分隱私提供嚴謹的數學保證（(ε, δ)-DP），成為 FL 中隱私保護的 de facto 標準。現有綜述多限於水平 FL（HFL）、僅區分集中式 DP（CDP）與本地 DP（LDP），忽略保護對象（樣本層 vs. 客戶層）、鄰近資料集定義、隱私保證強度，以及垂直 FL（VFL）與轉移 FL（TFL）的應用。論文旨在提出更精準的分類框架，澄清 DP、LDP 與 Shuffle 模型的定義差異與關聯，幫助研究者理解不同機制在 FL 中的保護範圍與實作細節。
關鍵背景概念：

FL 情境：HFL（資料特徵相同、樣本不同）、VFL（樣本相同、特徵不同）、TFL（源域與目標域資料部分重疊，用於知識轉移）。
DP 模型：DP（集中式，需可信伺服器）、LDP（本地加噪，無需可信第三方）、Shuffle 模型（本地加噪後經 Shuffle 伺服器匿名化）。
鄰近資料集定義決定保護層級：樣本層（單一資料點）或客戶層（單一客戶所有資料）。

結果／成果

論文的主要成果包括：

全新分類框架（見圖 1 概念）：以 FL 情境（HFL/VFL/TFL）與 DP 模型（DP/LDP/Shuffle）為二維軸，再細分鄰近層級（sample-level/client-level）。此框架清晰標示各機制保護對象，避免先前分類的模糊性。
全面文獻梳理：整理 70+ 篇論文（Table 2），涵蓋擾動機制（Gaussian、Laplace 等）、組成機制（基本組成、RDP、tCDP 等）、下游任務（分類、生成等）、模型架構與參數設定（ε 值範圍、客戶數）。
HFL 深度討論（Section 3）：DP-HFL（客戶層/樣本層）、LDP-HFL、Shuffle-HFL 的比較，包含 SL-DP vs. LDP、LDP vs. CL-DP with SA 等易混淆概念的澄清。
VFL 與 TFL 擴展（Section 4）：相較 HFL 研究較少，但已出現針對特徵分割或域轉移的 DP 應用。
實際應用總結（Section 5）：依資料類型（影像、文本、醫療、金融等）與真實部署情境整理案例，展示 DP-FL 在隱私敏感領域的實用性。
未來方向：提出 6 個開放挑戰與研究建議。
這些成果提供研究者快速定位特定子領域的工具，並強調 DP 在 FL 中平衡隱私與效用的實務洞見。

分析與洞見

分類創新與優點：
傳統分類常依「是否有可信中央伺服器」區分 CDP/LDP，忽略 FL 混合架構（cross-silo 中客戶端也可能有本地伺服器）。論文從定義與保證出發，精準區分：DP 基於集中鄰近資料集、LDP 無鄰近定義（純本地）、Shuffle 結合本地加噪與匿名化。進一步細分 sample-level（保護單一資料）與 client-level（保護單一客戶），讓保護對象更明確。這有助於評估攻擊面與組成效應（composition），避免過度或不足加噪。
技術權衡與挑戰：

隱私 vs. 效用：加噪（尤其是 LDP）會顯著降低模型準確度，特別在非 IID 資料或異質客戶情境。論文提及多種緩解策略，如自適應噪聲、個人化 FL、Bregman 散度正則化。
組成機制：基本組成、RDP（Rényi DP）、tCDP 等影響總隱私預算計算，論文詳細比較其鬆弛程度與適用性。
VFL/TFL 特殊性：VFL 中特徵分割增加對齊難度與隱私風險；TFL 涉及域適應，DP 需保護源域與目標域。相關研究較少，顯示潛在機會。
邊緣案例：客戶動態加入/退出、異質性（資料、模型、計算資源）、對抗攻擊下 DP 保證的穩健性。Shuffle 模型在大型客戶群中提供中間平衡，但引入額外 Shuffle 伺服器 overhead。
實務意涵：ε 值選擇（常見 0.1~10）需依應用場景調整；醫療、金融等領域對 δ 敏感，需嚴格保證。
多角度洞見：從理論嚴謹性看，DP 提供可證明保證優於啟發式方法；從系統角度，需考量通訊、計算開銷與可擴展性；從應用看，DP-FL 已逐步落地，但真實世界部署仍面臨法規符合性與效能驗證挑戰。論文強調，忽略鄰近層級可能導致保護不足或過度保守。

結論

論文結論強化 DP 作為 FL 隱私保護核心技術的地位，同時指出系統性分類的重要性。新框架不僅統整現有研究，更為未來工作提供清晰路徑。作者呼籲更多針對 VFL/TFL、異質性優化、動態環境與實際部署的研究，以實現真正可信的隱私保護聯邦學習。整體而言，此綜述為該領域研究者與從業人員提供寶貴參考，助力推進隱私與效能兼顧的 AI 協作系統。
文章連結：