一. Sequence to Sequence 在說明transformer之前,先介紹一下何謂Sequence to Sequence的模型。Sequence...
一. self-attention的編碼方式 昨天說明了注意力主要是要明確算出input與output之間相關的資訊量,那怎麼算呢,這邊我會說明現在最常使用的s...
一. 介紹 transformer就是像前述介紹的,他就是一個seq2seq model,將一個序列轉成另一個序列,中間都是由前一天所說self-attenti...
一. encoder 架構如下: encoder的動作在於對input進行編碼,在一開始input會產生Q、K、V這三個矩陣,由上圖可知道,他會先進行多頭的se...
一. decoder 架構如下: decoder主要是解析encoder的資訊,轉換成output的形式decoder分成下面三個子層: Masked Mul...
一. 資料準備 這次任務是實作機器翻譯,資料: http://www.manythings.org/anki/ 可以找中翻英的data,可以找cmn-eng/c...
一. 建立decoder 昨天已建立完decoder的部分,我上面有一些註釋,希望多少可以幫助理解程式碼 decoder class,流程與Day25介紹的d...
一. 介紹 Bert全名為Bidirectional Encoder Representation from Transformers,目前Bert與其他以BE...
一. 預訓練的BERT 接下來會介紹hugging face這個團隊提供的BERT的套件來做介紹~BERT的model本質本來就是預訓練模型。今天主要介紹 Be...
一. Fine-tine BERT 昨天是直接利用pretrained過的bert直接將句子轉成編碼的形式,今天主要會說明Fine-tune BERT的任務,F...