主要是將之前實習所學的內容做一個簡單統整,目的還是對自己有一個交代🤣
內容會著重於實習期間學習的NER(命名實體識別)
會介紹NLP, NER是甚麼、我怎麼做資料標記、我使用了哪些工具、訓練模型
今天我們要針對昨天說到的三個部份的第一個部分 Tokenizer 來做說明 (會先講一半) 以上圖出自 Hugging Face 官方 Tokenizer 的主...
解碼 接著前一天的部分繼續說,昨天的整個流程是把自然語言文本再轉到數字 ID,那當然我們也可以把數字 ID 轉回自然語言文本,這個動作稱為 Decoding。...
今天我們要針對三個部份的第二個部分 Model 來做說明 以上圖出自 Hugging Face 官方 我們要了解如何建立和使用模型,和 Tokenizer 有點...
今天我們要針對三個部份的最後一個部分 PostProcessing 來做說明 以上圖出自 Hugging Face 官方 PostProcessing這個動作事...
這一章節我們要補充如何將單個序列轉換成適合模型輸入的格式,以及處理維度或批次不符合的問題 在講 Tokenizer 的第一天裡面我有舉到一個單個序列的例子,我們...
這部分我們要來說明如何處理長度不同的多個序列或是序列太長的問題 Batching (批次處理) 這個概念呢其實跟 Day12 最後給的完整範例有使用到,Batc...
當我們已經知道要怎麼透過 padding 的方法矩形張量,那我們就可以將它傳入模型進行批量處理。 但是假如我們將兩個句子分開傳遞給模型和一起傳入模型做批次處理,...
在前面幾章節我們講了很多,說了 tokenizer 是怎麼工作的、tokenizaion 的過程、轉換 input ID、padding、attention m...
我們在講載入數據集也就是講 datasets 庫相關的內容前我先來分享一個我用來標記資料的工具。 我要介紹的工具是 Doccano,它是一個開源的文本標註工具和...
這邊會介紹除了 Hugging Face 它本身提供的 Dataset 以外還有哪些資料集我們可以拿來做運用。 1. Kaggle 網站 連結 kaggle 是...