iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 2
0

讓電腦擁有理解人類語言的能力,就是自然語言處理 (Natural Language Processing,縮寫 NLP)[1]。然而,人和人之間就會誤會彼此的語言了,電腦要如何理解語義?中研院資訊科學研究所的馬偉雲助研究員說明:以中文來說,最基本的,要先教電腦學會「斷詞」和「理解詞的意思」。

中文繁體字的數量,《說文解字》收集9353個漢字,《廣雅》收集18150個漢字,《康熙字典》約有 47,035 字左右[2];中文詞的數量,漢語詞典收錄了約38萬的詞彙,若加上現代用語如"科科"、"8+9"及"魯蛇"等等,則可能超過40萬個詞彙。而這僅僅是字與字搭配成詞,從一維到二維即有十倍數量的增長,若是多個字及多個詞搭配成句,則增長倍數更是超過十倍,故可想像研究字、詞、句、章節的語意理解研究的難度。

先從單單一句文本下手,我們要分清楚這句文本之中,字與詞的關係。
例如:這棵樹很難爬。

人可以輕易理解為:這棵 樹 很難 爬
但,也有其他可能:這顆 樹 很 難爬

這就是斷詞錯誤,造成兩句意思完全不一樣。

因此面臨到斷詞的問題,我們該如何讓電腦在記住詞彙之後,判斷句子中的文本哪些是詞,而哪些是字。
這即是自然語言處裡的基本問題之一,斷詞。

Reference

  1. 斷開中文的鎖鍊!自然語言處理 (NLP)
  2. 中國的漢字有多少個?本號權威的回答

「能被理解的存在就是語言。」——伽達默爾


上一篇
Day-01-序幕
下一篇
Day-03-斷詞-詞向量
系列文
人工智慧 X 自然語言處理 X 資料科學7
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言