iT邦幫忙

2024 iThome 鐵人賽

DAY 5
0
AI/ ML & Data

數據隱私:工具和風險系列 第 5

D5 - 數據隱身法術

  • 分享至 

  • xImage
  •  

今天教致盲術🥷🏻。

數據保護中,兩個讓資料實現「致盲」的重要概念:

  1. 匿名化(Anonymization):
    資料經處理,使其無法辨識特定人,且毫無重識別之可能,換句話說,經過匿名化處理的數據,無論用什麼方法,都無法再追溯到數據掌管者本身。
    • 數據一旦被匿名化,就不再被視為個人資料,因此不受像 GDPR 這樣的隱私法約束。
    • 常用於統計分析、數據挖掘等,特別是需要大規模分析數據但不涉及識別個人的情況下。
  2. 假名化(Pseudonymization):
    將個人資料中的識別資訊用替代值(如代號或編碼)替換,但保留恢復為原始數據的能力,數據依然可以通過使用額外資訊來識別特定人。
    • 數據仍然屬於個人資料,只是識別風險降低,如果有合法的權限或額外的密鑰,可以還原數據的真實身份,因此它仍然受到隱私法規的保護。
    • 常用於分析數據,但希望降低直接識別個人的風險,在醫療、金融等領域應用廣泛。

然而,如果要完全「致盲」,當然希望對方連一絲一毫都看不見,所以接下來要更近一步討論數據匿名化,防止敵人通過推斷攻擊(inference attacks)識別個人資訊。(聽起來像我取的一個招式名字,但真的有這個攻擊😠)
接下來的三種技術,是用於提高數據匿名化程度的增能法術:

  1. K-匿名化(k-anonymity)👺:
    確保在數據集中,至少有k個是相同的,任何一個數據都不能為唯一。
    - 通過模糊化或去除識別性強的特徵,以降低被識別風險,如生日或郵政編碼。
    - 限制:如果特徵在敏感數據集中出現的頻率非常高或低,攻擊者依然能通過推斷來識別。
    - Ex:在一個醫療數據集中,可能會將年齡模糊成範圍(如30-40歲),或將郵編縮小到前三位。

  2. L-多樣性(l-diversity)🪬:
    確保在K-匿名化的條件下,每個等價類(即具有相同quasi-identifiers的k個數據)中,敏感特徵(疾病或收入等,至少有l種不同的值,這樣就算能確定某人位在某等價類,也無法確定其具體敏感資訊。

    • L-多樣性通過增加敏感特徵值的多樣性,進一步降低推斷攻擊的風險。
    • 限制:它主要解決同一敏感特徵在同等價類中過於集中的問題,但它無法保護數據的「分佈性」,即使敏感屬性有多樣性,也可能存在分佈差異,導致隱私洩漏。
  3. T-近似性(t-closeness)🕯️:
    它進一步強化L-多樣性,確保每個等價類中敏感特徵值的分佈與整個數據集中該敏感特徵值的分佈接近,具體來說,某個等價類中敏感特徵的分佈與數據集整體分佈的差距不應超過一個預設的t值。

    • 這種方法進一步限制了數據的差異性,使等價類內的數據不會過於偏離整個數據集的敏感特徵分佈,減少攻擊者通過分佈差異進行推斷的可能性。
    • 限制:在保護隱私的同時,也可能影響數據的實用性,因為需要保持敏感特徵在等價類與整個數據集之間的相似性。

今天學習初階致盲術,在面對更高段的敵人時,這些技術還是稍顯不足,若要防衛敵方複雜度高的攻擊,我們還有很長的訓練要完成👽。


上一篇
D4 - 辨識隱藏數據的術式
下一篇
D6 - 隱身法術課程2
系列文
數據隱私:工具和風險30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言