自然語言分析是目前人工智慧裡相對進展慢的領域,其他如圖形辨識結合CNN模型通常就能達到不錯效果,而聲音、影像等也有特定特徵擷取方法進行模型訓練。自然語言資料佔據生活中非常大的資料比例,像是說話內容、網頁文章、公司計劃書等,因此對於自然語言的內容與應用是有必要進行深入分析。
斷詞從文字上就可以知道是要將句子進行切斷,並將句子變成一個一個詞彙(word),是文字分析前處理中很重要的一個步驟。在英文中因為英文詞彙本身就已經以空白間隔開來,所以不需要斷詞,而中文句子因為是以連續詞彙組成句子,因此需要將句子切成一個個詞彙。
句子是以各種不同詞性的詞彙所構成,包含名詞、動詞、形容詞等,對於文字分析,能夠讓電腦學得組成一個句子的詞性順序對於各種不同任務是非常有幫助的。
相依性分析(dependency parsing)是解析句子中的句法結構,像是主詞、動詞、受詞之間的順序關係,是一種更高層次語句結構拆解,和我們以前在學校學的英文句子文法非常類似,有了這些規則,電腦就能夠知道如何將詞彙組成一個人類可讀的有意義句子。
命名實體辨識(name entity recognition)是辨識文章中的專有名詞,包含人名、地點、時間、公司名稱等。
網路上找的到的文本分析工具非常多,以下是筆者曾經用過的tools
文本分析基礎研究已經發展一段非常長的時間了,雖然類神經網路的興起讓電腦能夠以不同角度來學習自然語言,但因為自然語言的複雜性遠遠超過我們的想像,如上面所敘述的各種語言分析方法,理解一個句子必須要做到這麼多工作,只要其中有一個環節出錯,後面的分析也會跟著出錯,因此唯有我們能夠更了解語言特性,才能夠讓電腦發展出完美的自然語言分析。