iT邦幫忙

2022 iThome 鐵人賽

DAY 11
0
自我挑戰組

AI :PyTorch系列 第 11

第十一天 循環神經網路基礎

  • 分享至 

  • xImage
  •  

RNN第一部分

tokenization:分詞,每個詞語是一個token
分詞方法:
    1轉化為單個字
    2切分詞語


N-gram:
準備詞語特征的方法:
文本化的向量:
    1 one-hot:使用稀疏的向量表示文本,佔用空間多
    2 word embedding:
        a 浮點型的稠密矩陣來顯示token
        b 向量中的每一個值是一個超參數,其初始值是隨機生成的,之後會在訓練的過程中進行學習爾獲得
        c api:torch.nn.Embedding(詞典數量,Embedding的維度)
        d 資料形狀的變化[batch_size,seq_len] --> [batch_size,seq_len,embedding_dim]

上一篇
第十天 模型的評估
下一篇
第十二天 文本情感分類
系列文
AI :PyTorch30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言