30天從零開始學習NLP(自然語言處理)

肉彈 (liu_meat_ball)

iT邦見習生 ‧ 點數 625

輔仁大學資訊工程學系

8669

累計瀏覽數

0人

在追蹤

站內簡訊追蹤

鐵人檔案

2023 iThome 鐵人賽

回列表

自我挑戰組

30天從零開始學習NLP(自然語言處理) 系列

主要是將之前實習所學的內容做一個簡單統整，目的還是對自己有一個交代🤣
內容會著重於實習期間學習的NER(命名實體識別)
會介紹NLP, NER是甚麼、我怎麼做資料標記、我使用了哪些工具、訓練模型

鐵人鍊成｜共 30 篇文章｜ 5 人訂閱訂閱系列文 RSS系列文

0 Like 0 留言 2197 瀏覽

DAY 11

Day 11 - 使用 Transformers (2) - Tokenizer(上半部)

今天我們要針對昨天說到的三個部份的第一個部分 Tokenizer 來做說明 (會先講一半) 以上圖出自 Hugging Face 官方 Tokenizer 的主...

2023-09-26 ‧ 由肉彈分享

0 Like 0 留言 2079 瀏覽

DAY 12

Day 12 - 使用 Transformers (3) - Tokenizer(下半部)

解碼接著前一天的部分繼續說，昨天的整個流程是把自然語言文本再轉到數字 ID，那當然我們也可以把數字 ID 轉回自然語言文本，這個動作稱為 Decoding。...

2023-09-27 ‧ 由肉彈分享

0 Like 0 留言 1324 瀏覽

DAY 13

Day 13 - 使用 Transformers (4) - Model

今天我們要針對三個部份的第二個部分 Model 來做說明以上圖出自 Hugging Face 官方我們要了解如何建立和使用模型，和 Tokenizer 有點...

2023-09-28 ‧ 由肉彈分享

0 Like 0 留言 1136 瀏覽

DAY 14

Day 14 - 使用 Transformers (5) - PostProcessing

今天我們要針對三個部份的最後一個部分 PostProcessing 來做說明以上圖出自 Hugging Face 官方 PostProcessing這個動作事...

2023-09-29 ‧ 由肉彈分享

0 Like 0 留言 759 瀏覽

DAY 15

Day 15 - 使用 Transformers (6) - 單一序列和模型批次不匹配(補充)

這一章節我們要補充如何將單個序列轉換成適合模型輸入的格式，以及處理維度或批次不符合的問題在講 Tokenizer 的第一天裡面我有舉到一個單個序列的例子，我們...

2023-09-30 ‧ 由肉彈分享

0 Like 0 留言 1056 瀏覽

DAY 16

Day 16 - 使用 Transformers (7) - 處理多個序列(上半部)

這部分我們要來說明如何處理長度不同的多個序列或是序列太長的問題 Batching (批次處理) 這個概念呢其實跟 Day12 最後給的完整範例有使用到，Batc...

2023-10-01 ‧ 由肉彈分享

0 Like 0 留言 784 瀏覽

DAY 17

Day 17 - 使用 Transformers (8) - 處理多個序列(下半部)

當我們已經知道要怎麼透過 padding 的方法矩形張量，那我們就可以將它傳入模型進行批量處理。但是假如我們將兩個句子分開傳遞給模型和一起傳入模型做批次處理，...

2023-10-02 ‧ 由肉彈分享

0 Like 0 留言 642 瀏覽

DAY 18

Day 18 - 使用 Transformers (9) - 總結(get it all together)

在前面幾章節我們講了很多，說了 tokenizer 是怎麼工作的、tokenizaion 的過程、轉換 input ID、padding、attention m...

2023-10-03 ‧ 由肉彈分享

0 Like 0 留言 1665 瀏覽

DAY 19

Day 19 - 標記資料工具介紹

我們在講載入數據集也就是講 datasets 庫相關的內容前我先來分享一個我用來標記資料的工具。我要介紹的工具是 Doccano，它是一個開源的文本標註工具和...

2023-10-04 ‧ 由肉彈分享

1 Like 0 留言 1371 瀏覽

DAY 20

Day 20 - 其他開源資料集、公開平台

這邊會介紹除了 Hugging Face 它本身提供的 Dataset 以外還有哪些資料集我們可以拿來做運用。 1. Kaggle 網站連結 kaggle 是...

2023-10-05 ‧ 由肉彈分享

肉彈的鐵人檔案

肉彈的收藏

肉彈的追蹤

肉彈的Like

肉彈的紀錄

肉彈的訂閱列表

鐵人檔案

30天從零開始學習NLP(自然語言處理) 系列

標記使用者