iT邦幫忙

2023 iThome 鐵人賽

DAY 27
0
AI & Data

踏上AI的步伐系列 第 27

Day27 AI的核心應用:自然語言處理(四)

  • 分享至 

  • xImage
  •  

NLP

NLP的主要演算模式

編碼器與解碼器模式

1.序列對序列(Sequence to Sequence Model, Seq2Seq)
指一個強調由輸入的序列性資料(Input Sequence),產生出長度不固定的輸出序列(Output Sequence)的一種系統架構。Seq2Seq本身只是一個概念,不是一種神經網路系統,只要能滿足輸入與輸出都是序列但長度不固定的就是Seq2Seq。

2.編碼器與解碼器模式(Encoder-decoder Models/Autoencoder, ED Model)
只用有一組編碼器、隱藏層與解碼器的一種序列對序列的架構模式,其輸入經由編碼器的編碼後會產生一組隱藏的特徵向量或稱背景向量,而透過解碼器再利用這個隱藏的特徵向量,一步一步的將輸出解碼出來。

注意力機制(Attention Mechanism, AM)

是目前深度學習中非常重要的一個機制,傳統的RNN、編碼器與解碼器模式常常要序列式的死記硬背、地毯式處理每個Input資料,不管這些資料對未來任務有沒有相關。因此如何應用一種機制能夠讓機器在輸出某一詞句時,可以直接的焦距與他相關的輸入數據上來記憶與處理,而對於不相關沒有影像力的其他訊息,則給予低權值,可以忽略不管,類似尋找資料的直接索引法,如Index或Hash法。AM Model是透過另一層網路參數來學習每個字與其上下文之間的權重加成。這種注意力聚焦的概念,如同人類視覺系統,例如當人類觀賞球賽時,只會注意拿著球的球員,因此當機器進行英翻中時,例如Tom chase Jerry,應只會聚焦於chase而忽略Tom和Jerry。

1.注意力機制的特色與優點
注意力機制與傳統ED Model所依靠的背景向量相比,有幾個特徵與優點:

  • 聚焦 vs.分心:AM在生成輸出時,只聚焦於當前要輸出的字在相關性最大的個別輸入訊系;ED Model要注意上下文所有訊息,且每個訊息的重要性都是一樣的沒有分別。
  • 豐富性vs.單一性:傳統透過壓縮只能升成一個固定長度的背景向量,而AM對每個個別輸入,都會提供一個背景向量給解碼器參考。因此提供相對豐富的訊息。
  • 重要性vs.距離:傳統需一步步提取序列訊息,在長文本上隨著步驟長度的增加,會慢慢衰減前面距離較遠詞的特徵,AM是依賴每個詞不同的相關性,直接來對特徵值,因此與距離無關,不會因為距離長,而減弱訊息特徵。
  • 正確率高:幫助ED Model正確掌握輸出與輸入的精確點對點對應關係,因此提升NLP許多任務精確性,尤其在大文本的資料集上效果較為顯著。

2.注意力機制的主要應用
AM本身是個提升系統專注力的功能機制,因此可以架接在任何深度學習模式上。


參考資料
人工智慧:概念應用與管理 林東清 著


上一篇
Day 26 AI的核心應用:自然語言處理(三)
下一篇
Day 28 AI的核心應用:自然語言處理(五)
系列文
踏上AI的步伐30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言