iT邦幫忙

2025 iThome 鐵人賽

DAY 2
0
AI & Data

讓電腦聽懂人話:30 天 NLP 入門系列 第 2

Day 2|文字探勘(Text Mining)的挑戰

  • 分享至 

  • xImage
  •  

引言

在這個數位化、大數據的時代,大家應該多多少少有有聽過 資料探勘(Data Minig),當我們想到「資料」,通常第一直覺可能是想到數字或表格,整整齊齊地躺在 Excel 表裡面。但其實資料有很多不同的形式,那我們要介紹的主角肯定是「文字」啦~
文字是一種很有趣的資料,它沒有固定的格式,意思常常隨上下文而變,甚至還會出現各種方言、俚語或錯字(typo)。這些都讓「文字處理」變得比數字或圖片更加麻煩~
因此 文字探勘(Text Mining) 是一個不簡單的任務哦!

文字資料的特性

這邊介紹幾個文字資料讓人很頭痛的特性:

  • 非結構化
  • 歧義性
  • 多樣性
  • 上下文依賴

1. 非結構化(Unstructured)

表格數據可以有明確的「欄位」與「型別」,如以下:

姓名 年齡 生日
王小美 18 2025/09/15
李大明 20 2025/10/15
  • 欄位(Column):姓名、年齡、生日
  • 型別(Data type):
    • 姓名 → 字串 (String)
    • 年齡 → 整數 (Integer)
    • 生日 → 日期 (Date)

文字卻是一整段沒有明確邊界的資料,如以下:
Unlike numbers or tables, written text does not come with clear boundaries. In many languages, words are not naturally separated by spaces or symbols. 像是中文就沒有空格來分詞 QQ

2. 歧義性(Ambiguity)

一段文字可以有多種意思,從簡單的「詞」的層級到「句子」的層級都會發生~

  • Word level:「打」→ 打球、打人、打字、打電話
  • Sentence level:「全臺大停電」→ 整個「台灣」都停電 / 整個「台灣大學」停電

歧義是非常有趣的議題,如果想更深入了解可以參考這個網頁:「咬傷農夫的狗很壞」,到底誰受傷?臺師大陳純音談歧義句,一窺語言學習的奧妙

3. 多樣性(Variability)

目前世界上存在著大約 7000 種語言,而在台灣我們可以接觸到的就有華語、台語、客語、原住民語,其中原住民語更是非常多樣,目前官方核定的原住民族共有 16族 42個語別!
除了多種語言之外,我們還有俚語、方言甚至錯字,例如:OK = okie = 歐虧
同樣一個意思有超多不同表達方式~~

4. 上下文依賴(Context-dependence)

一句話的意思也會因為上下文而有不同的解讀,以下是一個有趣的例子:

「我沒說你偷了我的錢包」

這句話的解讀會因為上下文(或是語氣)而傳達出不同的重點

  1. 我沒說是「你」偷了我的錢包
  2. 我沒說你偷的是我的「錢包」
  3. 「我」沒有說你偷了我的錢包

大家還可以想到其他的解讀方式嗎?

結語

NLP 主要的任務就是要讓電腦不只是能辨認字詞,更要能在不同語境中有正確的理解。所以文字資料雖然處理起來很複雜,但這就是 NLP 的核心挑戰也是有趣的地方~~

References


上一篇
Day 1|什麼是自然語言處理?
系列文
讓電腦聽懂人話:30 天 NLP 入門2
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言