主要是將之前實習所學的內容做一個簡單統整,目的還是對自己有一個交代🤣
內容會著重於實習期間學習的NER(命名實體識別)
會介紹NLP, NER是甚麼、我怎麼做資料標記、我使用了哪些工具、訓練模型
講完了 transformers 之後,也介紹了一些開源的資料集,接下來我們就是要來學怎麼做資料載入這件事,我在 Day5 的時候也稍微提到過這個,它提供了方便...
Datasets 它提供了 loading scripts 來讓我們可以載入本地和遠端的資料集。 它支援以下幾種資料格式 資料格式 loading scr...
在 datasets 中提供了許多內鍵方法讓我們整理資料,因為內容比較多所以我們拆成半,今天說前半段 以上圖出自 Hugging Face 官方 範例資料集我就...
接著前一天的部分繼續說後半部 以上圖出自 Hugging Face 官方 今天使用到的範例資料集會和前一天不一樣,我們使用 hugging face 官方 Co...
大概都了解 Datasets 如何以各種方式用於清理資料集。雖然 Datasets 的處理功能會涵蓋你大部分的模型訓練需求,但有的時候我們需要切換到 Panda...
NER 屬於 Token classification 的其中一種標記任務的分類,可以說 Token classification 的整個目的就是要為句子中的詞...
接著前一天繼續 5. 定義模型 from transformers import BertForTokenClassification model = Ber...
昨天我們已經透過train()方法將模型訓練完後,我們需要了解它在未見過的資料上的表現。使用驗證集進行評估可以幫助您確定模型的泛化能力,即模型是否能夠在新數據上...
這篇我使用我之前上傳到 Hugging Face 的模型檔案來解說,那因為在模型訓練那部份我沒講到要如何上傳模型,因此等鐵人賽結束後我會再補充回去。 介紹兩個重...
終於來到了鐵人賽的最後一天,感謝有看到今天的各位大大們,今天我們要來使用訓練好的模型來建立一個簡易的 Demo App,那我們就開始吧 先讓大家看看最後的呈現方...