當初想說將每天學到的東西打成一篇文章,紀錄看看30天後學會了什麼
但是最近翻自己的文章就發現內容打的很亂,感覺很多重要的細節沒有講到
進入到實作之後,發現自己對self-attention的用法非常不了解
在查詢資料的時候有找到TensorFlow官方釋出的Transformer model for language understanding
於是我決定接下來要好好整理這一份文章,用前面提到的知識來慢慢看懂self-attention的程式以及概念
如果英文很好的AI大神可以直接去看TensorFlow的那一篇文章
這一個教學是訓練Transformer模型,並且製作葡萄牙翻譯成英文的模型,我會嘗試看看做出英文翻譯成繁體中文的模型
Transformer模型的核心思想就是self-attention,如同Day 9 Self-attention(三)提到的,可以透過算出alpha來了解不同輸入序列的相似程度
Transformer使用self-attention而不是RNN或CNN來處理可變大小的輸入
有關self-attention和CNN跟RNN的比較在Day 13 Self-attention(七)中有提到
這個架構的缺點,有兩個
明天開始建構環境以及下載資料集