RNN第一部分
tokenization:分詞,每個詞語是一個token
分詞方法:
1轉化為單個字
2切分詞語
N-gram:
準備詞語特征的方法:
文本化的向量:
1 one-hot:使用稀疏的向量表示文本,佔用空間多
2 word embedding:
a 浮點型的稠密矩陣來顯示token
b 向量中的每一個值是一個超參數,其初始值是隨機生成的,之後會在訓練的過程中進行學習爾獲得
c api:torch.nn.Embedding(詞典數量,Embedding的維度)
d 資料形狀的變化[batch_size,seq_len] --> [batch_size,seq_len,embedding_dim]