讓電腦擁有理解人類語言的能力,就是自然語言處理 (Natural Language Processing,縮寫 NLP)[1]。然而,人和人之間就會誤會彼此的語言了,電腦要如何理解語義?中研院資訊科學研究所的馬偉雲助研究員說明:以中文來說,最基本的,要先教電腦學會「斷詞」和「理解詞的意思」。
中文繁體字的數量,《說文解字》收集9353個漢字,《廣雅》收集18150個漢字,《康熙字典》約有 47,035 字左右[2];中文詞的數量,漢語詞典收錄了約38萬的詞彙,若加上現代用語如"科科"、"8+9"及"魯蛇"等等,則可能超過40萬個詞彙。而這僅僅是字與字搭配成詞,從一維到二維即有十倍數量的增長,若是多個字及多個詞搭配成句,則增長倍數更是超過十倍,故可想像研究字、詞、句、章節的語意理解研究的難度。
先從單單一句文本下手,我們要分清楚這句文本之中,字與詞的關係。
例如:這棵樹很難爬。
人可以輕易理解為:這棵 樹 很難 爬
但,也有其他可能:這顆 樹 很 難爬
這就是斷詞錯誤,造成兩句意思完全不一樣。
因此面臨到斷詞的問題,我們該如何讓電腦在記住詞彙之後,判斷句子中的文本哪些是詞,而哪些是字。
這即是自然語言處裡的基本問題之一,斷詞。
Reference
「能被理解的存在就是語言。」——伽達默爾