前言 昨天講到要怎麼建立環境和下載資料集,今天要來講文字的處理 文字標籤化和去標籤化 由於模型沒有辦法直接訓練文字,因此要對文字做一些處理 這些文字要先轉換成一...
輸入管道(input pipeline) 要建立適合訓練的管道,需要對資料集做一些轉換 def tokenize_pairs(pt, en): pt =...
Positional encoding 在Day 13 Self-attention(七) Positional Encoding、self-attention...
Masking 需要把填充的部分標記為0,其餘部分標記為1,才不會導致填充的部分被誤認為是輸入 def create_padding_mask(seq):...
Scaled dot product attention 前面有提到transformer需要3個矩陣,K、Q、V 這個公式是前人推導出來效果最好的公式 推導這...
Multi-head attention 在Day 12 Self-attention(六) Multi-Head Self-attention有提到相關的概念...
Point wise feed forward network 在兩層全連階層中加入一個relu的激活函數 def point_wise_feed_forwar...
Transformer跟用attention的Seq2Seq的模型有著一樣的pattern 輸入的句子通過N個Encoder layer,把序列中的每一個t...
每個解碼器都包含幾個子層 Masked multi-head attention(包含look ahead mask跟padding mask) Multi-...
在開始鐵人賽之後才發現這個月不該比鐵人賽的 這個月的事情比平常都還要多 雖然硬著頭皮寫完了30天的文章 但是後面code真的沒有時間一一去看懂去解說 之後論文開...