1.序列對序列(Sequence to Sequence Model, Seq2Seq)
指一個強調由輸入的序列性資料(Input Sequence),產生出長度不固定的輸出序列(Output Sequence)的一種系統架構。Seq2Seq本身只是一個概念,不是一種神經網路系統,只要能滿足輸入與輸出都是序列但長度不固定的就是Seq2Seq。
2.編碼器與解碼器模式(Encoder-decoder Models/Autoencoder, ED Model)
只用有一組編碼器、隱藏層與解碼器的一種序列對序列的架構模式,其輸入經由編碼器的編碼後會產生一組隱藏的特徵向量或稱背景向量,而透過解碼器再利用這個隱藏的特徵向量,一步一步的將輸出解碼出來。
是目前深度學習中非常重要的一個機制,傳統的RNN、編碼器與解碼器模式常常要序列式的死記硬背、地毯式處理每個Input資料,不管這些資料對未來任務有沒有相關。因此如何應用一種機制能夠讓機器在輸出某一詞句時,可以直接的焦距與他相關的輸入數據上來記憶與處理,而對於不相關沒有影像力的其他訊息,則給予低權值,可以忽略不管,類似尋找資料的直接索引法,如Index或Hash法。AM Model是透過另一層網路參數來學習每個字與其上下文之間的權重加成。這種注意力聚焦的概念,如同人類視覺系統,例如當人類觀賞球賽時,只會注意拿著球的球員,因此當機器進行英翻中時,例如Tom chase Jerry,應只會聚焦於chase而忽略Tom和Jerry。
1.注意力機制的特色與優點
注意力機制與傳統ED Model所依靠的背景向量相比,有幾個特徵與優點:
2.注意力機制的主要應用
AM本身是個提升系統專注力的功能機制,因此可以架接在任何深度學習模式上。
參考資料
人工智慧:概念應用與管理 林東清 著