【Day24】文組腦也懂NLP數字轉換

第 11 屆 iThome 鐵人賽

DAY 24

Google Developers Machine Learning

文組腦的機器學習異想世界系列第 24 篇

11th鐵人賽

fishliu84

2019-10-10 18:01:53

1623 瀏覽

分享至

哈囉大家好～～～

之前我們說過我們的機器學習模型的輸入特徵要是數字，我們以自然語言處理為例，通常我們在處理自然語言處理的特徵時，我們的輸入在未處理前會是一個一個單詞，我們要先對單詞進行處理，將單詞轉換成數字，一個很常見的做法是使用word2vec，將每一個單詞轉換成向量。

首先，我們會有一個很大的字典，字典第一個單詞可能是a，然後一個個單詞排下去，我們會先做one-hot轉換，假如單詞是apple在字典第十個單詞，那我們做one-hot轉換後，會出來一個矩陣，在矩陣的第十個位子會是1，矩陣其他位置會是0，接著我們就可以來轉換成向量，在word2vec過程中，我們使用另一個大的矩陣與我們轉換的apple相乘，這個大的矩陣中有很多具有相對關係的單詞，例如:男人和女人或是國王和皇后，轉換出來向量的數字特徵會跟這些詞有相對關係，舉例來說sister這個單詞轉換後的向量，會和女人近一點，和男人遠一點，在我們將文字(通常是一整篇文章)轉換成向量後，才能準備餵給我們的模型。

以上，我們明天見～祝大家連假愉快～！