第十一天循環神經網路基礎

2022 iThome 鐵人賽

DAY 11

自我挑戰組

AI ：PyTorch系列第 11 篇

14th鐵人賽

408570019

2022-09-25 21:38:29

507 瀏覽

分享至

RNN第一部分

tokenization：分詞，每個詞語是一個token
分詞方法：
    1轉化為單個字
    2切分詞語


N-gram：
準備詞語特征的方法：
文本化的向量：
    1 one-hot：使用稀疏的向量表示文本，佔用空間多
    2 word embedding：
        a 浮點型的稠密矩陣來顯示token
        b 向量中的每一個值是一個超參數，其初始值是隨機生成的，之後會在訓練的過程中進行學習爾獲得
        c api：torch.nn.Embedding(詞典數量,Embedding的維度)
        d 資料形狀的變化[batch_size,seq_len] --> [batch_size,seq_len,embedding_dim]