今天教致盲術🥷🏻。
數據保護中,兩個讓資料實現「致盲」的重要概念:
然而,如果要完全「致盲」,當然希望對方連一絲一毫都看不見,所以接下來要更近一步討論數據匿名化,防止敵人通過推斷攻擊(inference attacks)識別個人資訊。(聽起來像我取的一個招式名字,但真的有這個攻擊😠)
接下來的三種技術,是用於提高數據匿名化程度的增能法術:
K-匿名化(k-anonymity)👺:
確保在數據集中,至少有k個是相同的,任何一個數據都不能為唯一。
- 通過模糊化或去除識別性強的特徵,以降低被識別風險,如生日或郵政編碼。
- 限制:如果特徵在敏感數據集中出現的頻率非常高或低,攻擊者依然能通過推斷來識別。
- Ex:在一個醫療數據集中,可能會將年齡模糊成範圍(如30-40歲),或將郵編縮小到前三位。
L-多樣性(l-diversity)🪬:
確保在K-匿名化的條件下,每個等價類(即具有相同quasi-identifiers的k個數據)中,敏感特徵(疾病或收入等,至少有l種不同的值,這樣就算能確定某人位在某等價類,也無法確定其具體敏感資訊。
T-近似性(t-closeness)🕯️:
它進一步強化L-多樣性,確保每個等價類中敏感特徵值的分佈與整個數據集中該敏感特徵值的分佈接近,具體來說,某個等價類中敏感特徵的分佈與數據集整體分佈的差距不應超過一個預設的t值。
今天學習初階致盲術,在面對更高段的敵人時,這些技術還是稍顯不足,若要防衛敵方複雜度高的攻擊,我們還有很長的訓練要完成👽。