構建深度學習應用程序,需要大量資料,但這些資料可能來自多個來源。而且可能是敏感資料,這意味著我們需要的資料可能由於隱私原因不能共享這些資料。
因此需要保護隱私的深度學習,我們使用敏感資料來構建深度學習應用程序,以從這些數據中獲得洞察力,但不掌握原始資料。
我們可以對數據進行匿名化、混淆或加密,但始終存在使用對抗性攻擊從訓練模型中解密原始數據的風險。
所以我們需要的是分佈式機器學習模型的協同訓練,無需任何數據共享。
也就是說,來自不同來源的資料可用於訓練稱為分佈式學習的深度學習應用程序,但原始數據不會共享,因此可以保護隱私。
自動補全的深度學習模型使用本地資料並更新全局模型。
麻省理工學院實驗室發布的拆分學習(SL)是一種分佈式和私有的深度學習技術,可用於在多個資料來源上訓練深度神經網路,同時減少直接共享原始標記資料的需要。
拆分學習也稱為拆分神經網絡(SplitNN),解決了在多個資料(Alice(s)) 和一個超級計算資源(Bob)上訓練深度神經網路的問題,同時滿足以下要求:
單個資料 (Alice) 不需要與 Bob 或其他資料資源共享資料。
超級計算資源 (Bob) 想要控制神經網絡的架構。
Bob 還保留了推理所需的部分網路參數。
在拆分學習中,深度神經網路被分成多個部分,每個部分都在不同的客戶端上進行訓練。
被訓練的數據可能駐留在一個超級計算資源上,也可能駐留在參與協作訓練的多個客戶端中。
但是參與訓練深度神經網路的客戶都不能“看到”彼此的資料。
技術應用於將資料編碼到不同空間的資料,然後將其傳輸以訓練深度神經網路。
並且由於神經網路被分成多個部分,並且這些部分中的每一個都在不同的客戶端上進行訓練,因此通過將每個部分的最後一層的權重轉移到下一個部分來進行網路的訓練。因此,客戶端之間不會共享原始數據,只有每個部分的最後切割層的權重被發送到下一個客戶端。
其中綠線標記的層代表剪切層。這裡網路的頂部在服務器上訓練,神經網路的底部在多個客戶端上訓練。
這個過程一直持續到分佈式分裂學習網路被訓練而不查看彼此的原始資料。
拆分學習配置允許資源受限的本地醫院與較小的個體資料集進行協作並構建的機器學習模型,而無需根據信任、監管和隱私相互共享任何原始資料。