其實google的話就會有很多相關自然語言處理的定義與文章,自然語言處理英文為Natural Language Processing,通常稱作NLP,是人工智慧...
一. 為何需要斷詞最主要的原因就是中文的最小一個單位就是一個詞,通常不能直接餵一個句子給你的語言模型處理,這樣模型連詞跟詞的關係都不知道,所以我們需要先利用斷詞...
一. 前言 這部份我比較不會著墨太多,因為通常是在處理中文文本比較不會處理這一塊,而在非中文的語言上,例如英文語句中,同一個單詞在拼法上可能隨著時態、單複數、主...
一. 何謂語言模型 斷完詞後,我們希望可以用這些詞做什麼呢?用途很多,但大部分的情況基本上是希望訓練一個模型,這個模型可以了解文章、句子等語意的關係,這也就是語...
一. 前言 前一天已經說明N-gram的一些計算方式了,這篇會以實作'預測詞'來作為N-gram的範例,就是利用前面的詞來預測後面該接哪個詞較好,這是參與某堂課...
一. 前言 詞性標注 Part Of Speech(後面皆簡稱POS),簡單來說就是將文章、句子中,文字的詞類標註出來,如下圖,每個詞在一個句子中都有對應的詞性...
一. 馬可夫模型(Markov Model) 以下會簡稱為MM。MM是一種具有狀態的隨機過程,從目前狀態轉移到下一個狀態 的機率由 P(下一個狀態|前一個狀態)...
一. Viterbi 演算法 因為若要一條條計算每個path的話會花許多時間,利用Dynamic Programming的方法通常會先將前一次狀態的結果存起來,...
一. 資料準備 這邊的code是參考coursera上課程的code,根據自己的需求改成中文的範例此資料為conllu檔,所以先透過處理這個檔的package來...
一. 前言 在如今社群網路蓬勃的時代,從網路充斥著許多文字資料,要如何有效的分析文字讓電腦可以知道我們餵進去的文字是什麼,所以才會有許多將文字、文章等轉成數字、...