OK 在開始我們今天的內容之前,要先感謝鐵人賽來到了尾聲,這個一點通系列文章也估計是最後一個篇章。當然即便在鐵人賽結束的將來,本人呢也還是會繼續關注資安領域並且精鍊自己的知識、技術,所以有機會一定會再 iThome 這裡再跟大家相見!
對於特定章節的部分,也不用擔心如果某些篇章的敘述剛好並不是那麼完整的話(因為篇幅確實有一定限制),會隨著鐵人賽兒埋沒而斷更~針對這個部分我如果覺得某些地方可以再多 share 的話,一定會再分享地更完整呈現給大家!!!那我們就開始今天的內容咯 Go~Go~Go~
大家可能會好奇,為什麼突然跳到 NER 這邊來,主要是希望在最後的系列文章,可以跟大家分享自己前陣子不久(大概 6-8 月一直到現在)都有持續在研究、製作的專案(on-going),其中就是在針對這部分的技術著墨了許多,因此才會在分享去識別化技術前,先談談什麼是 NER?它的目的意義以及重要性等等。
命名實體識別(Named Entity Recognition,簡稱 NER)是一種自然語言處理(NLP)技術,用於識別文本中的特定實體,如人名、地名、組織名稱、時間、數量等命名實體,並將其分類到預定義的類別中。
NER 的主要目的是從「非結構化文本中(一般的文件檔案 → word/txt/…etc 這些都算)去提取結構化信息(有特定意義的類別 entities)」,使我們能夠理解文本當中存在哪些重要元素。這項技術使得自動化系統能夠搭配 LLM 等等工具精準、快速識別出文本中的關鍵實體,可以說是為後續的訊息處理和分析奠定了強大的基礎。
而有意義的類別實體(英文術語就是 Entity)通常有以下幾種:
主要有以下五種應用層面上的意義,前三種尤為重要:
以下的兩種著重後續分析:
在資料去識別化(de-identification)過程中,NER 扮演著至關重要的角色。它能夠自動識別文本中的個人識別信息(PII),如姓名、身份證號碼、電話號碼等,這是進行資料脫敏的第一步。透過準確識別這些敏感資訊,才能有效地將其替換、遮蔽或移除,確保資料在分享和分析過程中不會洩露個人隱私。
個人識別資訊(Personally Identifiable Information,簡稱 PII)是指任何能夠用來識別、追溯到個人(individuals)身份的資料。這些資訊可以單獨或與其他資訊結合使用,以識別、聯繫或定位特定個人。 PII 的目的側重於「隱私保護與資安」,與法律合規(GDPR、CCPA、HIPPA、台灣個資法)緊密相關!
而 PII 的類型主要分為以下兩種,直接、間接識別的資訊:
這類資訊可以直接識別個人身份,例如:
這類資訊本身不足以識別到個人本人,但與其他資訊結合時,可能就會達到識別的效果:
為了保護 PII,常見的去識別化技術包括:
在實施這些技術時,NER 技術可以幫助自動識別文本中的 PII,使去識別化過程更加高效和準確。
比較項目 | 意義 |
---|---|
NER (Name Entity Recognition) | 單純將文字結構化呈現的技術 → 負責文字拆解的任務 |
PII (Personal Identifiable Info.) | 是能夠識別個資的一種「敏感資料」類別 → 可以說是 NER 的細部分支,是需要被保護的東東! |
因此,其實「去識別化技術」簡單來說就是:
👉 先靠 NER 找出可能的實體,再判斷哪些屬於 PII,進行 masking、加密或匿名化等等後續處理(看需求為何,會有不同的操作)。
今天分享的內容就到這邊結束啦!我們明天會討論到 LLM 以及深入探討去識別化技術,讓大家更了解這個領域的知識~ 我們明天見!👋