iT邦幫忙

第 12 屆 iThome 鐵人賽

0
自我挑戰組

AI 高中生的自我學習系列 第 24

Day 24 - 天眼CNN 的耳朵和嘴巴 - BERT

  • 分享至 

  • xImage
  •  

BERT 全名為 Bidirectional Encoder Representations from Transformers

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

  • Transformer Encoder 的架構
  • Google 以無監督的方式利用大量無標註文本「煉成」的語言代表模型,其架構為 Transformer 中的 Encoder。
  • 使用google pre-trained models (2018)---很重要, 下面解釋
  • 多語言
    https://ithelp.ithome.com.tw/upload/images/20201223/20130601hMF4dEPpjG.png

BERT 好處及影響

  • 1:無監督數據無限大。不像 ImageNet 還要找人標注數據,要訓練 LM 的話網路上所有文本都是你潛在的資料集(BERT 預訓練使用的數據集共有 33 億個字,其中包含維基百科及 BooksCorpus)
  • 2:厲害的 語言模型(Language Model, LM) 能夠學會語法結構、解讀語義甚至指代消解。透過特徵擷取或是 fine-tuning 能更有效率地訓練下游任務並提升其表現
  • 3:減少處理不同 NLP 任務所需的 architecture engineering 成本(即遷移學習)

遷移學習-站在巨人肩膀

以往為了解決不同的 NLP 任務,我們會為該任務設計一個最適合的神經網路架構並做訓練。設計這些模型並測試其 performance 是非常耗費成本的(人力、時間、計算資源)。
* 如果有一個能直接處理各式 NLP 任務的通用架構該有多好?
* BERT 論文的作者們使用 Transfomer Encoder、大量文本以及兩個預訓練目標,事先訓練好一個可以套用到多個 NLP 任務的 BERT 模型,再以此為基礎 fine tune 多個下游任務。

這就是近來 NLP 領域非常流行的兩階段遷移學習:

  • 先以 LM Pretraining 的方式預先訓練出一個對自然語言有一定「理解」的通用模型
  • 再將該模型拿來做特徵擷取或是 fine tune 下游的(監督式)任務

Google 在預訓練 BERT 時讓它同時進行兩個任務:

  • 克漏字填空(1953 年被提出的 Cloze task,學術點的說法是 Masked Language Model, MLM)
  • 判斷第 2 個句子在原始文本中是否跟第 1 個句子相接(Next Sentence Prediction, NSP)

ELMo , GPT and BERT

ELMo link 利用獨立訓練的雙向兩層 LSTM 做語言模型並將中間得到的隱狀態向量串接當作每個詞彙的 contextual word repr.;

GPT 則是使用 Transformer 的 Decoder 來訓練一個中規中矩、從左到右的單向語言模型。可以參考另一篇文章:直觀理解 GPT-2 語言模型並生成金庸武俠小說來深入了解 GPT 與 GPT-2。

BERT 跟它們的差異在於利用 MLM(即克漏字)的概念及 Transformer Encoder 的架構,擺脫以往語言模型只能從單個方向(由左到右或由右到左)估計下個詞彙出現機率的窘境,訓練出一個雙向的語言代表模型。這使得 BERT 輸出的每個 token 的 repr. Tn 都同時蘊含了前後文資訊,真正的雙向 representation。

跟以往模型相比,BERT 能更好地處理自然語言,在著名的問答任務 SQuAD2.0 也有卓越表現。

參考一: 進擊的BERT:NLP 界的巨人之力與遷移學習
參考二: ELMO, BERT , GPT李宏毅教授講解目前 NLP 領域的最新研究是如何讓機器讀懂文字的

註:本文是搜尋數個網站及各種不同來源之結果,著重在學習,有些內容已難辦別出處,我會儘可能列入出處,若有疏忽或出處不可考,請聯絡我, 我會列入, 尚請見諒。

上一篇
Day 23 - 天眼CNN 的耳朵和嘴巴 - Transformer
下一篇
Day 25 - 當AI有了常識之後, 超越人類? -GAN(1)
系列文
AI 高中生的自我學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言