iT邦幫忙

2023 iThome 鐵人賽

DAY 24
0
AI & Data

嘗試在AI世界闖蕩系列 第 24

Day 24 AI核心應用:自然語言處理(語言模型、BERT)

  • 分享至 

  • xImage
  •  

語言模型Language Model

  • 一個模型透過對人類文字使用大量的學習後,一個能合理預測下一個詞句、能架構出順暢文句。
  • 傳統主要的模型:N-gram、TF-IDF、Word2 Vector
  • 大型語料庫訓練模型:ELMO、ULMfIT、GPT-2、XLM、BERT、GPT-3

BERT(Bidirectional Encoder Representations from Transformers)

  • Transformer的雙向編碼器。
  • 一個基於微調Fine Tune、雙向Bidrection、多層Multi-Layer Transformer的Encoder。
  • 利用無監督式學習的一個大型通用預訓練語言模式Pre-trained Language Model。
  • Google在2018年9月推出,為目前最有力的預訓練語言模式。
  • 可以當成許多下游任務的基礎工程(利用BERT所學習到的高品質的詞向量來支援後面的下游任務)。
  • 目前所有相關NLP任務的最有效率做法。
  • 主要架構:利用Transformer的Encoder模組可分為:①BERT(Base):有12層,每層有12個Attention Head共有1.1一個參數。 ②BERT(Large):有24層,詞向量1024維度,每層有16個Attention Head,共有3.4一個參數。
  • 訓練資料:包括Wikipedia+Bookcorpus(11038本)加上FB(Meta)共33億個字。
  • 訓練方式:
    ➊詞層次Word Level的克漏字填空Masked Language Model(MLM):再輸入的文本中隨機掩蓋Mask每個句子中15%的詞,訓練由左右兩邊的詞句來預測中間被掩蓋的詞,如此訓練就可得到中間詞前後左右雙向的依賴關係Bidirection Relationship,並解決同詞異義的問題。
    ➋句子層次的下一句預測,即NSP(Next Sentence Prediction):許多任務,像是:問答系統、聊天機器人、詩詞創造,都需要語言模式具備此功能。在input的句子後下一個句子視為正確的正樣本Positive Sample,然後NSP再隨機由文本抽取一個其他句子視為錯誤的負樣本Negative Sample。
  • 優勢:
    ①Transformer優勢:利用平行、聚焦、直接對應速度快的Transformer Model及其所具備的自我注意力機制優點。
    ②詞層次深入的理解詞意:利用MLM以及自我注意力SATT兩個重要機制。
    ③句子層次的深入了解句子與句子之間的關係:利用NSP Model。
    ④非監督式學習:採用成本低、獲取容易、可大量蒐集、不用標註、不用做預處理的一般通用語料。
  • 主要貢獻、應用:
    ①取代傳統複雜的NLP預處理工作
    ②取代部份的下游任務的工作
    https://ithelp.ithome.com.tw/upload/images/20231008/20163102vXCS7mhK2N.jpg
  • 特色:https://ithelp.ithome.com.tw/upload/images/20231008/20163102pYlU4b50nD.jpg

https://ithelp.ithome.com.tw/upload/images/20231008/20163102wKq7Rtii1M.jpg
🔼BERT以預訓練模式的方式支援各種不同的任務


參考來源:人工智慧:概念應用與管理 林東清


上一篇
Day 23 AI核心應用:自然語言處理(AM、Transformer)
下一篇
Day 25 AI核心應用:自然語言處理(GPT-3、LM未來)
系列文
嘗試在AI世界闖蕩31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言