iT邦幫忙

2024 iThome 鐵人賽

DAY 4
0
AI/ ML & Data

數據隱私:工具和風險系列 第 4

D4 - 辨識隱藏數據的術式

  • 分享至 

  • xImage
  •  

這篇名聽起來很厲害,其實內容就普通,但還是可以看看我要介紹的這些技術。

先來理解一個小概念,自然語言處理(Natural Language Processing)

結合了計算機科學、AI及語言學的技術,讓計算機能夠理解、解釋和生成人類語言,核心技術包含語言模型、情感分析等等,其中「命名實體識別(NER)」這項技術能夠對應到我的主題 🧙🏻,簡單來說,它能夠自動在文本中檢測並標註特定類型的數據(姓名、地址、身份證號碼等),原理是通過訓練ML模型,識別出某些關鍵詞或模式,並將它們與特定的類型(“人名”,“地點”,“組織”,“身份證號碼”)相對應。

但如果是具「隱含意義」或「拼寫錯誤」的數據,還得靠他們的輔助:

語義分析(Semantic Analysis) 🐞:
幫助模型理解隱含寓意,與語法分析不同,它重視句子的深層含義,而非表面句構。
Ex:他前天去便利商店買東西,他的住址在附近。
模型能推測出“住址”這個訊息隱含在“他住便利商店附近”中(就算沒有直接提到具體的地址)。

實體關係抽取(Relation Extraction) 🦑:
從非結構化的句式中自動識別並識別實體之間的語義關係,通常會在文本中先確定實體後(NER先處理) 才分析。
流程Ex:
- 實體識別(NER):從「Steve Jobs是蘋果公司的創辦人」這句話中識別出兩個實體:「Steve Jobs」(人名)和「蘋果公司」(組織)。
- 關係識別:「Steve Jobs」和「蘋果公司」之間的關係可以被標註為「創辦者」(founder- of)。

Transformer 架構 🗼:
深度學習架構,用於處理序列數據,使用自注意力機制(self-attention),可同時考慮句式中所有單詞的關聯性。與 LSTM 不同,Transformer架構不需要逐字處理序列,而是並行處理,因此在大多數 NLP 任務中更有效,最著名的應用包括 BERT 和 GPT 等模型。

  • Ex:雖然Michael沒去過亞洲,但他一直對中國文化深感興趣,尤其是其歷史。他在小時候讀了很多關於古中國的書,這讓他產生了去探訪長城的強烈願望。
    (Transformer 可以同時捕捉“Michael”與“中國文化”之間的關係,並了解“長城”是中國文化的一部分,這是 Michael 夢想去到的地方。)

模糊匹配技術(Fuzzy Matching)🛟:
用於識別與原始數據相似數據。這種技術通常用於搜索引擎、拼寫的自動糾正或名稱匹配中,允許一定程度誤差,例如拼寫錯誤、縮寫等,並找到與預期結果足夠接近的目標。

  • Ex:Jonh Smith 在XXX公司工作,工號:1235A。
    (模糊匹配技術可以推斷出“Jonh”是“John”的變體,仍能夠識別和標註為人名)

字符級別模型(Character-level Models)📮:
在處理單詞或短語前,先分析單字符的序列,因此,它在處理拼寫錯誤、變形或創意拼寫時比“詞”級別模型更加靈活。

  • Ex:J0hn D03
    (字符級別模型可以識別出 “J0hn D03” 是 “John Doe” 的變形形式)

上一篇
D3 - 辨識者們
下一篇
D5 - 數據隱身法術
系列文
數據隱私:工具和風險30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言