哈囉大家好~~~
之前我們說過我們的機器學習模型的輸入特徵要是數字,我們以自然語言處理為例,通常我們在處理自然語言處理的特徵時,我們的輸入在未處理前會是一個一個單詞,我們要先對單詞進行處理,將單詞轉換成數字,一個很常見的做法是使用word2vec,將每一個單詞轉換成向量。
首先,我們會有一個很大的字典,字典第一個單詞可能是a,然後一個個單詞排下去,我們會先做one-hot轉換,假如單詞是apple在字典第十個單詞,那我們做one-hot轉換後,會出來一個矩陣,在矩陣的第十個位子會是1,矩陣其他位置會是0,接著我們就可以來轉換成向量,在word2vec過程中,我們使用另一個大的矩陣與我們轉換的apple相乘,這個大的矩陣中有很多具有相對關係的單詞,例如:男人和女人或是國王和皇后,轉換出來向量的數字特徵會跟這些詞有相對關係,舉例來說sister這個單詞轉換後的向量,會和女人近一點,和男人遠一點,在我們將文字(通常是一整篇文章)轉換成向量後,才能準備餵給我們的模型。
以上,我們明天見~祝大家連假愉快~!