這幾天我分享了 De-identification 的歷程以及實作範例,也講述了 NLP(自然語言處理)體系下的 NER 以及更細部針對敏資的 PII ,需要的可以去前面的文章看看~而今天我們不只是要討論「怎麼做」而已,而是更進一步思考 「為什麼需要」和「未來的走向」。如此大家就不會只停留在技術細節,而是能夠去理解這個領域背後的價值與挑戰!希望大家看完這幾篇對於 De-identification 技術會有初步的體悟!
我們一開始有討論到資料遮罩(Data Masking)的部分,而 Redaction(遮蔽)跟 De-identification(去識別化)就存在技術上的不同。但就本質而言,其實都是為了達到「資料保護」的目的,只是兩者實現的方式不同,可以操作的空間也有差距。
兩者的主要差異:
用圖表來看的話,就是:
Tech | 遮蔽(Redaction) | 去識別化(De-identification) |
---|---|---|
處理方式 | 直接遮或移除敏感資訊 | 以假資料或一般化資訊替代敏感資訊 |
實例 | 09XX-XXXXXX、塗黑處理 | 「王小明」→「王先生」、「45歲」→「中年」 |
可讀性 | 較差,影響文章流暢度 | 較佳,保持自然流暢閱讀體驗 |
資料可用性 | 有限,難以用於研究分析 | 較高,在保護隱私的同時保留資料價值 |
實作難度 | 較簡單,直覺性高 | 較複雜,需要更多技術處理! |
共同目的 | 保護個人隱私、符合資料保護法規 | |
適用場景 | 簡單的資料保護需求、法律文件 | 需要保留資料分析價值的場景、醫療研究、統計分析 |
📍 但其實遮蔽也是有遮蔽的好處,需求性不高的情況下其實 Redaction 是完全足夠的,而且任務簡單、技術實作成本也相對低的多。因此,還是需要根據個人、企業需求去選擇要使用哪種技術。
說是未來,其實就是現在正在推行的技術哈哈哈,那就是現在很多企業、政府等等提出的「邊緣 Edge AI」的技術。為什麼會提到 AI 呢?我們前面有講到 LLM 就像是(ChatGPT、Gemini 等我們統稱為 GenAI),而去識別化技術的提升現在多半轉型使用 AI 技術支援,因此這些 GenAI 對於去識別化來說是非常重要的技術!
首先,邊緣 AI 是一種將人工智能運算直接整合到網路邊緣的裝置(e.g., 手機、智慧家電、電腦等)中的技術,讓數據、資料「在本地端被即時處理」,而不需要仰賴集中管理的雲端伺服器。
它的運作模式主要分為兩種:
本地端處理
它跟傳統 AI 技術不同地方在於 → 邊緣 AI 的運算在資料生成的裝置上直接進行,減少了數據傳輸至雲端的這個流程 → 資料處理更有效率。
real-time 即時決策
而由於資料運算和決策都在本地端完成,因此能達到「幾乎即時的反應速度和數據分析」。
它的優勢主要切分為以下四種:
因此,去識別化技術搭配這個技術可謂是錦上添花,如虎添翼啊!但同時也會面臨許多技術上的挑戰,如何有效地去結合以及呈現也是我們需要去努力的!
今天很粗淺地講解完了 De-identification 技術、遮蔽跟去識別化的差別以及去識別化技術未來的實現走向以及 Edge AI 技術。希望大家看完今天的文章有學到很多,我們一起努力,也歡迎大家可以一起討論以及進步!明天見~👋