Privacy-Preserving Machine Learning 🦝。
機器學習的快速進步導致隱私風險增加,攻擊者可能利用其弱點來竊取甚至損毀資料,PPML的目標就是在這風險背景下引入一系列技術和對策來保護資料隱私。
⚡️先從技術認知開始:安全多方計算(SMPC)、差分隱私(DP)、安全屋(TEE)、聯邦學習、同態加密。
(1)安全多方計算(SMPC)
多個參與者共同計算某個函數的結果,不需要揭露各自的輸入數據,換句話說,每個人僅能獲得最終結果,而無法獲得其他參與者的私有數據。
仍可能受到成員推理攻擊(Membership Inference Attacks),可對模型進行加密來應對。
(2)DP
DAY8 有詳細介紹。
(3)安全屋(TEE)
一種在硬體方面提供安全環境的技術,在處理器中運行敏感應用程式和數據,提供數據加密、完整性保護和數據隔離。
(4)同態加密(Homomorphic Encryption)
加密技術,能在不需要解密數據的情況下對加密數據進行計算,得到的結果仍是加密的。
(5)聯邦學習
D10其實有提過,但看了其他文章之後有想補充與自我釐清的點。
(引自並整理這篇)
https://www.hh-ri.com/2022/03/10/馮霽:聯邦學習是目前隱私保護最重要也有效的技/
SMPD在理論上具好結果、現實中卻難落實,DP則難兼顧「數據隱私」及「模型效果」,在這樣的情況下凸顯了「聯邦學習」的高效與重要性。
在各隱私法下它能提供很好的幫助,端部定製及協同合作方面也助益甚多。
而一體兩面,防禦攻擊者侵入訓練過程並進而獲取參數訊息等是一項挑戰,「同態加密」則是目前重要的手段, 非獨立同分佈資料特性,可能影響模型訓練效果,所以有團隊在研究梯度提升機(Gradient Boosting Machine)方案,以應對數據遷移,保持在不斷變化的數據環境中能有效學習。
最後,如何建立去中心化的網路結構也是難題,但學術界已提出了系列不同的架構,以應對這一挑戰。