在這個數位化、大數據的時代,大家應該多多少少有有聽過 資料探勘(Data Minig),當我們想到「資料」,通常第一直覺可能是想到數字或表格,整整齊齊地躺在 Excel 表裡面。但其實資料有很多不同的形式,那我們要介紹的主角肯定是「文字」啦~
文字是一種很有趣的資料,它沒有固定的格式,意思常常隨上下文而變,甚至還會出現各種方言、俚語或錯字(typo)。這些都讓「文字處理」變得比數字或圖片更加麻煩~
因此 文字探勘(Text Mining) 是一個不簡單的任務哦!
這邊介紹幾個文字資料讓人很頭痛的特性:
表格數據可以有明確的「欄位」與「型別」,如以下:
姓名 | 年齡 | 生日 |
---|---|---|
王小美 | 18 | 2025/09/15 |
李大明 | 20 | 2025/10/15 |
文字卻是一整段沒有明確邊界的資料,如以下:
Unlike numbers or tables, written text does not come with clear boundaries. In many languages, words are not naturally separated by spaces or symbols. 像是中文就沒有空格來分詞 QQ
一段文字可以有多種意思,從簡單的「詞」的層級到「句子」的層級都會發生~
歧義是非常有趣的議題,如果想更深入了解可以參考這個網頁:「咬傷農夫的狗很壞」,到底誰受傷?臺師大陳純音談歧義句,一窺語言學習的奧妙
目前世界上存在著大約 7000 種語言,而在台灣我們可以接觸到的就有華語、台語、客語、原住民語,其中原住民語更是非常多樣,目前官方核定的原住民族共有 16族 42個語別!
除了多種語言之外,我們還有俚語、方言甚至錯字,例如:OK = okie = 歐虧
同樣一個意思有超多不同表達方式~~
一句話的意思也會因為上下文而有不同的解讀,以下是一個有趣的例子:
「我沒說你偷了我的錢包」
這句話的解讀會因為上下文(或是語氣)而傳達出不同的重點
大家還可以想到其他的解讀方式嗎?
NLP 主要的任務就是要讓電腦不只是能辨認字詞,更要能在不同語境中有正確的理解。所以文字資料雖然處理起來很複雜,但這就是 NLP 的核心挑戰也是有趣的地方~~