30天從零開始學習NLP(自然語言處理)

肉彈 (liu_meat_ball)

iT邦見習生 ‧ 點數 625

輔仁大學資訊工程學系

8415

累計瀏覽數

0人

在追蹤

站內簡訊追蹤

鐵人檔案

2023 iThome 鐵人賽

回列表

自我挑戰組

30天從零開始學習NLP(自然語言處理) 系列

主要是將之前實習所學的內容做一個簡單統整，目的還是對自己有一個交代🤣
內容會著重於實習期間學習的NER(命名實體識別)
會介紹NLP, NER是甚麼、我怎麼做資料標記、我使用了哪些工具、訓練模型

鐵人鍊成｜共 30 篇文章｜ 5 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 1312 瀏覽

DAY 21

Day 21 - 使用 Datasets 庫 (1) - Hugging Face Hub 的 dataset

講完了 transformers 之後，也介紹了一些開源的資料集，接下來我們就是要來學怎麼做資料載入這件事，我在 Day5 的時候也稍微提到過這個，它提供了方便...

2023-10-06 ‧ 由肉彈分享

0 Like 0 留言 1372 瀏覽

DAY 22

Day 22 - 使用 Datasets 庫 (2) - 遠端和本地資料

Datasets 它提供了 loading scripts 來讓我們可以載入本地和遠端的資料集。它支援以下幾種資料格式資料格式 loading scr...

2023-10-07 ‧ 由肉彈分享

1 Like 0 留言 1160 瀏覽

DAY 23

Day 23 - 使用 Datasets 庫 (3) - 清理資料集功能

在 datasets 中提供了許多內鍵方法讓我們整理資料，因為內容比較多所以我們拆成半，今天說前半段以上圖出自 Hugging Face 官方範例資料集我就...

2023-10-08 ‧ 由肉彈分享

0 Like 0 留言 1214 瀏覽

DAY 24

Day 24 - 使用 Datasets 庫 (4) - 清理資料集功能

接著前一天的部分繼續說後半部以上圖出自 Hugging Face 官方今天使用到的範例資料集會和前一天不一樣，我們使用 hugging face 官方 Co...

2023-10-09 ‧ 由肉彈分享

0 Like 0 留言 1226 瀏覽

DAY 25

Day 25 - 使用 Datasets 庫 (5) - 儲存資料集和資料轉換

大概都了解 Datasets 如何以各種方式用於清理資料集。雖然 Datasets 的處理功能會涵蓋你大部分的模型訓練需求，但有的時候我們需要切換到 Panda...

2023-10-10 ‧ 由肉彈分享

0 Like 0 留言 1763 瀏覽

DAY 26

Day 26 - NER 模型訓練 (1)

NER 屬於 Token classification 的其中一種標記任務的分類，可以說　Token classification 的整個目的就是要為句子中的詞...

2023-10-11 ‧ 由肉彈分享

0 Like 0 留言 1044 瀏覽

DAY 27

Day 27 - NER 模型訓練 (2)

接著前一天繼續 5. 定義模型 from transformers import BertForTokenClassification model = Ber...

2023-10-12 ‧ 由肉彈分享

0 Like 0 留言 1595 瀏覽

DAY 28

Day 28 - NER 模型評估和驗證

昨天我們已經透過train()方法將模型訓練完後，我們需要了解它在未見過的資料上的表現。使用驗證集進行評估可以幫助您確定模型的泛化能力，即模型是否能夠在新數據上...

2023-10-13 ‧ 由肉彈分享

0 Like 0 留言 820 瀏覽

DAY 29

Day 29 - NER 模型檔案內容

這篇我使用我之前上傳到 Hugging Face 的模型檔案來解說，那因為在模型訓練那部份我沒講到要如何上傳模型，因此等鐵人賽結束後我會再補充回去。介紹兩個重...

2023-10-14 ‧ 由肉彈分享

0 Like 0 留言 1874 瀏覽

DAY 30

Day 30 - 建立 Gradio Demo App

終於來到了鐵人賽的最後一天，感謝有看到今天的各位大大們，今天我們要來使用訓練好的模型來建立一個簡易的 Demo App，那我們就開始吧先讓大家看看最後的呈現方...

2023-10-15 ‧ 由肉彈分享

肉彈的鐵人檔案

肉彈的收藏

肉彈的追蹤

肉彈的Like

肉彈的紀錄

肉彈的訂閱列表

鐵人檔案

30天從零開始學習NLP(自然語言處理) 系列

標記使用者