2018年,BERT旋風襲捲自然語言處理(NLP)界,此後迅速成為SOTA模型被應用於各NLP任務中。BERT的核心思想是「Transformer」模型架構與「預訓練語言模型」這兩個概念,至今仍然是NLP領域的主要范式,無法被超越。雖然BERT效果好,得到廣泛使用,但從BERT被發明到現在也已過去了三年時間。三年時間,研究者們做了哪些改善?如何讓BERT引領的思潮繼續發揮更大更強的作用?
本主題系列文章將著重探討最新的BERT相關模型(包括不限於RoBERTa, DeBERTa, BART, Longformer等等)的應用方式、訓練技巧,一切為了實戰。
從芝麻街角色到改變NLP的模型 如果你用Google以「BERT」作為關鍵字搜尋圖片,那麼你會發現一個奇特的現象:一隻黃色的玩偶與奇怪的網狀結構模型混雜在一起。...
如何從實戰層面認識BERT BERT的研究與應用可以分為不同的層次。你可以鑽研BERT的模型技術細節,瞭解它為什麼這麼有效,甚至可以發現其中有問題的設計來加以改...
BERT輸出了什麼? 回應上一篇關於詞嵌入Token Embedding的討論,BERT的輸出就是文本序列中每個詞單位的高維向量表示,你也可以把它當成一連串抽取...
在此之前,我們已經介紹過BERT的核心概念遷移學習Transfer Learning以及它的輸入輸出。那麼接下來的問題就是BERT將詞語轉換為包含了上下文資訊的...
當本系列文章提到BERT時,最初是指Google所開發的BERT,但後續基本就是指所有運用Transformer和預訓練模式的語言模型。今天這篇文章就是在廣義的...
前五天,我們講解了BERT模型的核心概念、輸入輸出以及模型的類型,現在讓我們進入模型的結構、原理部分,來談一談作為BERT模型的原始架構的Transformer...
恭喜,BERT模型的基礎部分已經講解到昨日為止了,接下來我們來談一些質疑、檢討、改進基礎BERT的內容。今天我們來講解一個頗有爭議的問題:[CLS]是否真的能代...
今天開始,我們要進入一個新的主題「Adaptation」。這是指在預訓練模型和Fine-tune之間對模型額外做一個「適應」(Adaptation)的動作,讓B...
BERT系列的預訓練模型一個個出,RoBERTa、XLNet、DeBERTa等等一個比一個更能打,刷新著自然語言理解的GLUE榜單。這些都是通用型的預訓練語言模...