iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
自我挑戰組

30天從零開始學習NLP(自然語言處理) 系列

主要是將之前實習所學的內容做一個簡單統整,目的還是對自己有一個交代🤣
內容會著重於實習期間學習的NER(命名實體識別)
會介紹NLP, NER是甚麼、我怎麼做資料標記、我使用了哪些工具、訓練模型

鐵人鍊成 | 共 30 篇文章 | 5 人訂閱 訂閱系列文 RSS系列文
DAY 21

Day 21 - 使用 Datasets 庫 (1) - Hugging Face Hub 的 dataset

講完了 transformers 之後,也介紹了一些開源的資料集,接下來我們就是要來學怎麼做資料載入這件事,我在 Day5 的時候也稍微提到過這個,它提供了方便...

2023-10-06 ‧ 由 肉彈 分享
DAY 22

Day 22 - 使用 Datasets 庫 (2) - 遠端和本地資料

Datasets 它提供了 loading scripts 來讓我們可以載入本地和遠端的資料集。 它支援以下幾種資料格式 資料格式 loading scr...

2023-10-07 ‧ 由 肉彈 分享
DAY 23

Day 23 - 使用 Datasets 庫 (3) - 清理資料集功能

在 datasets 中提供了許多內鍵方法讓我們整理資料,因為內容比較多所以我們拆成半,今天說前半段 以上圖出自 Hugging Face 官方 範例資料集我就...

2023-10-08 ‧ 由 肉彈 分享
DAY 24

Day 24 - 使用 Datasets 庫 (4) - 清理資料集功能

接著前一天的部分繼續說後半部 以上圖出自 Hugging Face 官方 今天使用到的範例資料集會和前一天不一樣,我們使用 hugging face 官方 Co...

2023-10-09 ‧ 由 肉彈 分享
DAY 25

Day 25 - 使用 Datasets 庫 (5) - 儲存資料集和資料轉換

大概都了解 Datasets 如何以各種方式用於清理資料集。雖然 Datasets 的處理功能會涵蓋你大部分的模型訓練需求,但有的時候我們需要切換到 Panda...

2023-10-10 ‧ 由 肉彈 分享
DAY 26

Day 26 - NER 模型訓練 (1)

NER 屬於 Token classification 的其中一種標記任務的分類,可以說 Token classification 的整個目的就是要為句子中的詞...

2023-10-11 ‧ 由 肉彈 分享
DAY 27

Day 27 - NER 模型訓練 (2)

接著前一天繼續 5. 定義模型 from transformers import BertForTokenClassification model = Ber...

2023-10-12 ‧ 由 肉彈 分享
DAY 28

Day 28 - NER 模型評估和驗證

昨天我們已經透過train()方法將模型訓練完後,我們需要了解它在未見過的資料上的表現。使用驗證集進行評估可以幫助您確定模型的泛化能力,即模型是否能夠在新數據上...

2023-10-13 ‧ 由 肉彈 分享
DAY 29

Day 29 - NER 模型檔案內容

這篇我使用我之前上傳到 Hugging Face 的模型檔案來解說,那因為在模型訓練那部份我沒講到要如何上傳模型,因此等鐵人賽結束後我會再補充回去。 介紹兩個重...

2023-10-14 ‧ 由 肉彈 分享
DAY 30

Day 30 - 建立 Gradio Demo App

終於來到了鐵人賽的最後一天,感謝有看到今天的各位大大們,今天我們要來使用訓練好的模型來建立一個簡易的 Demo App,那我們就開始吧 先讓大家看看最後的呈現方...

2023-10-15 ‧ 由 肉彈 分享