iT邦幫忙

2025 iThome 鐵人賽

DAY 27
0
Security

Cybersecurity 淺談資安學習歷程系列 第 27

Day 27|《資安一點通:去識別化技術探討 ep.4 — De-identification 與 Edge AI》

  • 分享至 

  • xImage
  •  

前言

這幾天我分享了 De-identification 的歷程以及實作範例,也講述了 NLP(自然語言處理)體系下的 NER 以及更細部針對敏資的 PII ,需要的可以去前面的文章看看~而今天我們不只是要討論「怎麼做」而已,而是更進一步思考 「為什麼需要」和「未來的走向」。如此大家就不會只停留在技術細節,而是能夠去理解這個領域背後的價值與挑戰!希望大家看完這幾篇對於 De-identification 技術會有初步的體悟!

我們一開始有討論到資料遮罩(Data Masking)的部分,而 Redaction(遮蔽)跟 De-identification(去識別化)就存在技術上的不同。但就本質而言,其實都是為了達到「資料保護」的目的,只是兩者實現的方式不同,可以操作的空間也有差距。


Redaction 遮蔽 vs. De-identification 去識別化

兩者的主要差異:

  • 遮蔽(Redaction):簡單粗暴 → 直接把敏感資訊蓋掉,例如把電話號碼變成「09XX-XXXXXX」、或者是「直接全部塗黑」這兩種常見的方式。而這種方式雖然直覺性高 → 看不見敏感資料,但相反地,就會失去一定「可讀性」以及資料的「可用性」
    • 可讀性 Readability:較無法通過上下文去理解全文的重點、直觀上觀感上比較差
    • 可用性:較辦法針對資料去做研究、分析,因為真實資料都被遮掉了,那資料的可利用性就會差很多。
  • 去識別化(De-identification):更「高階」的處理模式 → 不是單純將敏感資訊遮蔽,而是以假、一般化資料替代原資料(例如名字「王小明」→「王先生」,或者「45 歲」 →「中年」等等)。經過如此處理,文章還能保持自然流暢,研究者或分析系統也能在保護隱私的同時使用資料!非常讚 👍

用圖表來看的話,就是:

Tech 遮蔽(Redaction) 去識別化(De-identification)
處理方式 直接遮或移除敏感資訊 以假資料或一般化資訊替代敏感資訊
實例 09XX-XXXXXX、塗黑處理 「王小明」→「王先生」、「45歲」→「中年」
可讀性 較差,影響文章流暢度 較佳,保持自然流暢閱讀體驗
資料可用性 有限,難以用於研究分析 較高,在保護隱私的同時保留資料價值
實作難度 較簡單,直覺性高 較複雜,需要更多技術處理!
共同目的 保護個人隱私、符合資料保護法規
適用場景 簡單的資料保護需求、法律文件 需要保留資料分析價值的場景、醫療研究、統計分析

📍 但其實遮蔽也是有遮蔽的好處,需求性不高的情況下其實 Redaction 是完全足夠的,而且任務簡單、技術實作成本也相對低的多。因此,還是需要根據個人、企業需求去選擇要使用哪種技術。

未來技術挑戰

說是未來,其實就是現在正在推行的技術哈哈哈,那就是現在很多企業、政府等等提出的「邊緣 Edge AI」的技術。為什麼會提到 AI 呢?我們前面有講到 LLM 就像是(ChatGPT、Gemini 等我們統稱為 GenAI),而去識別化技術的提升現在多半轉型使用 AI 技術支援,因此這些 GenAI 對於去識別化來說是非常重要的技術!

什麼是 Edge 邊緣 AI?

首先,邊緣 AI 是一種將人工智能運算直接整合到網路邊緣的裝置(e.g., 手機、智慧家電、電腦等)中的技術,讓數據、資料「在本地端被即時處理」,而不需要仰賴集中管理的雲端伺服器。

它的運作模式主要分為兩種:

  1. 本地端處理
    它跟傳統 AI 技術不同地方在於 → 邊緣 AI 的運算在資料生成的裝置上直接進行,減少了數據傳輸至雲端的這個流程 → 資料處理更有效率。

  2. real-time 即時決策
    而由於資料運算和決策都在本地端完成,因此能達到「幾乎即時的反應速度和數據分析」。

Edge AI 的優勢

它的優勢主要切分為以下四種:

  • 低延遲、快速處理:在本地端進行處理,能夠縮短資料傳輸和運算的時間(群輝科技跟你說 NPU → AI 加速器,比 CPU、GPU 更高級更高效!),實現極快處理速度!
  • 提升數據安全與隱私:敏感數據在本地端就被處理,減少了資料在傳輸過程中被截取或洩漏的風險。
  • 提高穩定性與可靠性:即使在網路連線不穩或中斷的情況下,邊緣設備也能獨立運作,確保服務的連續性。
  • 節省頻寬與降低成本:透過在本地進行處理,減少了大量數據傳輸至雲端的負擔,從而降低了頻寬的使用和雲端運算成本。

因此,去識別化技術搭配這個技術可謂是錦上添花,如虎添翼啊!但同時也會面臨許多技術上的挑戰,如何有效地去結合以及呈現也是我們需要去努力的!


結語

今天很粗淺地講解完了 De-identification 技術、遮蔽跟去識別化的差別以及去識別化技術未來的實現走向以及 Edge AI 技術。希望大家看完今天的文章有學到很多,我們一起努力,也歡迎大家可以一起討論以及進步!明天見~👋


上一篇
Day 26|《資安一點通:去識別化技術探討 ep.3 — De-identification 範例流程實作》
下一篇
Day 28|《終局之戰:攻防思維的完整循環 — Red vs. Blue Team》
系列文
Cybersecurity 淺談資安學習歷程29
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言