iT邦幫忙

2025 iThome 鐵人賽

DAY 24
0
Security

Cybersecurity 淺談資安學習歷程系列 第 24

Day 24|《資安一點通:去識別化技術探討 ep1. —NER 跟 PII 的緊密關係》

  • 分享至 

  • xImage
  •  

前言

OK 在開始我們今天的內容之前,要先感謝鐵人賽來到了尾聲,這個一點通系列文章也估計是最後一個篇章。當然即便在鐵人賽結束的將來,本人呢也還是會繼續關注資安領域並且精鍊自己的知識、技術,所以有機會一定會再 iThome 這裡再跟大家相見!

對於特定章節的部分,也不用擔心如果某些篇章的敘述剛好並不是那麼完整的話(因為篇幅確實有一定限制),會隨著鐵人賽兒埋沒而斷更~針對這個部分我如果覺得某些地方可以再多 share 的話,一定會再分享地更完整呈現給大家!!!那我們就開始今天的內容咯 Go~Go~Go~


Why NER?

大家可能會好奇,為什麼突然跳到 NER 這邊來,主要是希望在最後的系列文章,可以跟大家分享自己前陣子不久(大概 6-8 月一直到現在)都有持續在研究、製作的專案(on-going),其中就是在針對這部分的技術著墨了許多,因此才會在分享去識別化技術前,先談談什麼是 NER?它的目的意義以及重要性等等。

什麼是 NER(Name Entity Recognition)?

命名實體識別(Named Entity Recognition,簡稱 NER)是一種自然語言處理(NLP)技術,用於識別文本中的特定實體,如人名、地名、組織名稱、時間、數量等命名實體,並將其分類到預定義的類別中。

為什麼要有 NER?主要目的?

NER 的主要目的是從「非結構化文本中(一般的文件檔案 → word/txt/…etc 這些都算)去提取結構化信息(有特定意義的類別 entities)」,使我們能夠理解文本當中存在哪些重要元素。這項技術使得自動化系統能夠搭配 LLM 等等工具精準、快速識別出文本中的關鍵實體,可以說是為後續的訊息處理和分析奠定了強大的基礎。

而有意義的類別實體(英文術語就是 Entity)通常有以下幾種:

  • 人名(PERSON)
  • 地點(LOCATION)
  • 機構(ORGANIZATION)
  • 日期時間(DATE/TIME)
  • 數字(可能是金額、號碼、帳密)等等

NER 的應用意義

主要有以下五種應用層面上的意義,前三種尤為重要:

  1. 資訊檢索與摘要:幫助系統快速識別文檔中的關鍵信息,提高檢索精度和自動摘要的質量
  2. 問答系統:使系統能夠識別問題中的重要實體,從而精確定位答案
  3. 資訊安全:識別文本中的敏感信息(如個人身分識別信息,PII → 我們接下來要說明的部分 🤩),用於資料脫敏(又稱,數據漂白)和隱私的保護

以下的兩種著重後續分析:

  1. 知識圖譜構建:提取實體間的關係,幫助建立結構化的知識網絡
  2. 輿情分析:識別新聞、社交媒體中提到的人物、組織等,分析其關聯和影響

NER 在去識別化中的角色

在資料去識別化(de-identification)過程中,NER 扮演著至關重要的角色。它能夠自動識別文本中的個人識別信息(PII),如姓名、身份證號碼、電話號碼等,這是進行資料脫敏的第一步。透過準確識別這些敏感資訊,才能有效地將其替換、遮蔽或移除,確保資料在分享和分析過程中不會洩露個人隱私。

什麽是 PII(Personally Identifiable Information)?

個人識別資訊(Personally Identifiable Information,簡稱 PII)是指任何能夠用來識別、追溯到個人(individuals)身份的資料。這些資訊可以單獨或與其他資訊結合使用,以識別、聯繫或定位特定個人。 PII 的目的側重於「隱私保護與資安」,與法律合規(GDPR、CCPA、HIPPA、台灣個資法)緊密相關!

而 PII 的類型主要分為以下兩種,直接、間接識別的資訊:

直接識別資訊

這類資訊可以直接識別個人身份,例如:

  • 姓名(e.g., 王O明、李O)
  • 身分證號碼(e.g., A111111111)
  • 護照號碼
  • 駕照號碼
  • 銀行帳戶號碼
  • 生物識別資料 → Biometric data(如指紋、虹膜掃描 Retinal scanning)

間接識別資訊

這類資訊本身不足以識別到個人本人,但與其他資訊結合時,可能就會達到識別的效果:

  • 出生日期
  • 出生地點
  • 種族或族裔
  • 性別
  • 工作職稱和工作地點
  • 地理位置資訊
  • 網路識別碼(如 IP 位址、Cookie ID 等等)

PII 的重要性

  1. 隱私保護:PII資料是個人隱私的核心。保護這些資料免於未經授權的存取和使用是保護個人隱私的基本要求。
  2. 法規遵循:許多地區都有保護個人資料的法規,如歐盟的GDPR、台灣的個人資料保護法等,這些法規對PII的處理有嚴格的規定。
  3. 資安風險管理:PII資料洩露可能導致身份盜用、詐騙和其他形式的犯罪,因此組織需要特別注意對這類資料的保護。
  4. 信任建立:適當處理和保護PII資料可以幫助組織建立與客戶、用戶或員工之間的信任關係。

保護 PII 的去識別化(De-identification)策略

為了保護 PII,常見的去識別化技術包括:

  • 匿名化:永久移除所有可能識別個人的資訊
  • 假名化:將識別資訊替換為假名或代碼,但保留可能的回溯機
  • 資料遮蔽:部分隱藏敏感資訊(如僅顯示信用卡號的最後四位)
  • 資料泛化:將具體資料轉換為更廣泛的類別(如將確切年齡轉換為年齡範圍)
  • 資料置換:用類似但非實際的資料替換真實資料

在實施這些技術時,NER 技術可以幫助自動識別文本中的 PII,使去識別化過程更加高效和準確。

比較項目 意義
NER (Name Entity Recognition) 單純將文字結構化呈現的技術 → 負責文字拆解的任務
PII (Personal Identifiable Info.) 是能夠識別個資的一種「敏感資料」類別 → 可以說是 NER 的細部分支,是需要被保護的東東

因此,其實「去識別化技術」簡單來說就是:

👉 先靠 NER 找出可能的實體,再判斷哪些屬於 PII,進行 masking、加密或匿名化等等後續處理(看需求為何,會有不同的操作)。


結語

今天分享的內容就到這邊結束啦!我們明天會討論到 LLM 以及深入探討去識別化技術,讓大家更了解這個領域的知識~ 我們明天見!👋


上一篇
Day 23|《資安攻防啟蒙 ep.12:DDoS 攻擊—從原理到防守一次到位!》
系列文
Cybersecurity 淺談資安學習歷程24
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言