iT邦幫忙

鐵人檔案

2021 iThome 鐵人賽
回列表
自我挑戰組

30天初步了解自然語言處理-自學筆記 系列

NLP模型最近越來越紅,也越來越多應用於企業當中,希望藉由30天的時間,好好整理一下過去自己學習到的自然語言處理相關知識

鐵人鍊成 | 共 30 篇文章 | 7 人訂閱 訂閱系列文 RSS系列文
DAY 1

[Day1] 何謂自然語言處理

其實google的話就會有很多相關自然語言處理的定義與文章,自然語言處理英文為Natural Language Processing,通常稱作NLP,是人工智慧...

2021-09-01 ‧ 由 eating 分享
DAY 2

[Day2] 斷詞介紹

一. 為何需要斷詞 最主要的原因就是中文的最小一個單位就是一個詞,通常不能直接餵一個句子給你的語言模型處理,這樣模型連詞跟詞的關係都不知道,所以我們需要先利用斷...

2021-09-02 ‧ 由 eating 分享
DAY 3

[Day3] stemming 與 lemmatization

一. 前言 這部份我比較不會著墨太多,因為通常是在處理中文文本比較不會處理這一塊,而在非中文的語言上,例如英文語句中,同一個單詞在拼法上可能隨著時態、單複數、主...

2021-09-03 ‧ 由 eating 分享
DAY 4

[Day4] 語言模型(一)-N-gram

一. 何謂語言模型 斷完詞後,我們希望可以用這些詞做什麼呢?用途很多,但大部分的情況基本上是希望訓練一個模型,這個模型可以了解文章、句子等語意的關係,這也就是語...

2021-09-04 ‧ 由 eating 分享
DAY 5

[Day5] 語言模型(二)-N-gram實作

一. 前言 前一天已經說明N-gram的一些計算方式了,這篇會以實作'預測詞'來作為N-gram的範例,就是利用前面的詞來預測後面該接哪個詞較好,這是參與某堂課...

2021-09-05 ‧ 由 eating 分享
DAY 6

[Day6] 詞性標注(一)-前言

一. 前言 詞性標注 Part Of Speech(後面皆簡稱POS),簡單來說就是將文章、句子中,文字的詞類標註出來,如下圖,每個詞在一個句子中都有對應的詞性...

2021-09-06 ‧ 由 eating 分享
DAY 7

[Day7] 詞性標注(二)-方法介紹

一. 馬可夫模型(Markov Model) 以下會簡稱為MM。MM是一種具有狀態的隨機過程,從目前狀態轉移到下一個狀態 的機率由 P(下一個狀態|前一個狀態)...

2021-09-07 ‧ 由 eating 分享
DAY 8

[Day8] 詞性標注(三)-Viterbi 演算法

一. Viterbi 演算法 因為若要一條條計算每個path的話會花許多時間,利用Dynamic Programming的方法通常會先將前一次狀態的結果存起來,...

2021-09-08 ‧ 由 eating 分享
DAY 9

[Day9] 詞性標注(四)-利用python實作POS任務

一. 資料準備 這邊的code是參考coursera上課程的code,根據自己的需求改成中文的範例 此資料為conllu檔,所以先透過處理這個檔的package...

2021-09-09 ‧ 由 eating 分享
DAY 10

[Day10] 文本/詞表示方式(一)-前言

一. 前言 在如今社群網路蓬勃的時代,從網路充斥著許多文字資料,要如何有效的分析文字讓電腦可以知道我們餵進去的文字是什麼,所以才會有許多將文字、文章等轉成數字、...

2021-09-10 ‧ 由 eating 分享