Day 27｜《資安一點通：去識別化技術探討 ep.4 — De-identification 與 Edge AI》

17th鐵人賽

lucaschu

2025-09-27 23:15:10

214 瀏覽

分享至

前言

這幾天我分享了 De-identification 的歷程以及實作範例，也講述了 NLP（自然語言處理）體系下的 NER 以及更細部針對敏資的 PII ，需要的可以去前面的文章看看～而今天我們不只是要討論「怎麼做」而已，而是更進一步思考 「為什麼需要」和「未來的走向」。如此大家就不會只停留在技術細節，而是能夠去理解這個領域背後的價值與挑戰！希望大家看完這幾篇對於 De-identification 技術會有初步的體悟！

我們一開始有討論到資料遮罩（Data Masking）的部分，而 Redaction（遮蔽）跟 De-identification（去識別化）就存在技術上的不同。但就本質而言，其實都是為了達到「資料保護」的目的，只是兩者實現的方式不同，可以操作的空間也有差距。

Redaction 遮蔽 vs. De-identification 去識別化

兩者的主要差異：

遮蔽（Redaction）：簡單粗暴 → 直接把敏感資訊蓋掉，例如把電話號碼變成「09XX-XXXXXX」、或者是「直接全部塗黑」這兩種常見的方式。而這種方式雖然直覺性高 → 看不見敏感資料，但相反地，就會失去一定「可讀性」以及資料的「可用性」。
- 可讀性 Readability：較無法通過上下文去理解全文的重點、直觀上觀感上比較差
- 可用性：較辦法針對資料去做研究、分析，因為真實資料都被遮掉了，那資料的可利用性就會差很多。
去識別化（De-identification）：更「高階」的處理模式 → 不是單純將敏感資訊遮蔽，而是以假、一般化資料替代原資料（例如名字「王小明」→「王先生」，或者「45 歲」 →「中年」等等）。經過如此處理，文章還能保持自然流暢，研究者或分析系統也能在保護隱私的同時使用資料！非常讚 👍

用圖表來看的話，就是：

Tech	遮蔽（Redaction）	去識別化（De-identification）
處理方式	直接遮或移除敏感資訊	以假資料或一般化資訊替代敏感資訊
實例	09XX-XXXXXX、塗黑處理	「王小明」→「王先生」、「45歲」→「中年」
可讀性	較差，影響文章流暢度	較佳，保持自然流暢閱讀體驗
資料可用性	有限，難以用於研究分析	較高，在保護隱私的同時保留資料價值
實作難度	較簡單，直覺性高	較複雜，需要更多技術處理！
共同目的	保護個人隱私、符合資料保護法規
適用場景	簡單的資料保護需求、法律文件	需要保留資料分析價值的場景、醫療研究、統計分析

📍 但其實遮蔽也是有遮蔽的好處，需求性不高的情況下其實 Redaction 是完全足夠的，而且任務簡單、技術實作成本也相對低的多。因此，還是需要根據個人、企業需求去選擇要使用哪種技術。

未來技術挑戰

說是未來，其實就是現在正在推行的技術哈哈哈，那就是現在很多企業、政府等等提出的「邊緣 Edge AI」的技術。為什麼會提到 AI 呢？我們前面有講到 LLM 就像是（ChatGPT、Gemini 等我們統稱為 GenAI），而去識別化技術的提升現在多半轉型使用 AI 技術支援，因此這些 GenAI 對於去識別化來說是非常重要的技術！

什麼是 Edge 邊緣 AI？

首先，邊緣 AI 是一種將人工智能運算直接整合到網路邊緣的裝置（e.g., 手機、智慧家電、電腦等）中的技術，讓數據、資料「在本地端被即時處理」，而不需要仰賴集中管理的雲端伺服器。

它的運作模式主要分為兩種：

本地端處理
它跟傳統 AI 技術不同地方在於 → 邊緣 AI 的運算在資料生成的裝置上直接進行，減少了數據傳輸至雲端的這個流程 → 資料處理更有效率。
real-time 即時決策
而由於資料運算和決策都在本地端完成，因此能達到「幾乎即時的反應速度和數據分析」。

Edge AI 的優勢

它的優勢主要切分為以下四種：

低延遲、快速處理：在本地端進行處理，能夠縮短資料傳輸和運算的時間（群輝科技跟你說 NPU → AI 加速器，比 CPU、GPU 更高級更高效！），實現極快處理速度！
提升數據安全與隱私：敏感數據在本地端就被處理，減少了資料在傳輸過程中被截取或洩漏的風險。
提高穩定性與可靠性：即使在網路連線不穩或中斷的情況下，邊緣設備也能獨立運作，確保服務的連續性。
節省頻寬與降低成本：透過在本地進行處理，減少了大量數據傳輸至雲端的負擔，從而降低了頻寬的使用和雲端運算成本。