iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
自我挑戰組

30天從零開始學習NLP(自然語言處理) 系列

主要是將之前實習所學的內容做一個簡單統整,目的還是對自己有一個交代🤣
內容會著重於實習期間學習的NER(命名實體識別)
會介紹NLP, NER是甚麼、我怎麼做資料標記、我使用了哪些工具、訓練模型

鐵人鍊成 | 共 30 篇文章 | 5 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day 11 - 使用 Transformers (2) - Tokenizer(上半部)

今天我們要針對昨天說到的三個部份的第一個部分 Tokenizer 來做說明 (會先講一半) 以上圖出自 Hugging Face 官方 Tokenizer 的主...

2023-09-26 ‧ 由 肉彈 分享
DAY 12

Day 12 - 使用 Transformers (3) - Tokenizer(下半部)

解碼 接著前一天的部分繼續說,昨天的整個流程是把自然語言文本再轉到數字 ID,那當然我們也可以把數字 ID 轉回自然語言文本,這個動作稱為 Decoding。...

2023-09-27 ‧ 由 肉彈 分享
DAY 13

Day 13 - 使用 Transformers (4) - Model

今天我們要針對三個部份的第二個部分 Model 來做說明 以上圖出自 Hugging Face 官方 我們要了解如何建立和使用模型,和 Tokenizer 有點...

2023-09-28 ‧ 由 肉彈 分享
DAY 14

Day 14 - 使用 Transformers (5) - PostProcessing

今天我們要針對三個部份的最後一個部分 PostProcessing 來做說明 以上圖出自 Hugging Face 官方 PostProcessing這個動作事...

2023-09-29 ‧ 由 肉彈 分享
DAY 15

Day 15 - 使用 Transformers (6) - 單一序列和模型批次不匹配(補充)

這一章節我們要補充如何將單個序列轉換成適合模型輸入的格式,以及處理維度或批次不符合的問題 在講 Tokenizer 的第一天裡面我有舉到一個單個序列的例子,我們...

2023-09-30 ‧ 由 肉彈 分享
DAY 16

Day 16 - 使用 Transformers (7) - 處理多個序列(上半部)

這部分我們要來說明如何處理長度不同的多個序列或是序列太長的問題 Batching (批次處理) 這個概念呢其實跟 Day12 最後給的完整範例有使用到,Batc...

2023-10-01 ‧ 由 肉彈 分享
DAY 17

Day 17 - 使用 Transformers (8) - 處理多個序列(下半部)

當我們已經知道要怎麼透過 padding 的方法矩形張量,那我們就可以將它傳入模型進行批量處理。 但是假如我們將兩個句子分開傳遞給模型和一起傳入模型做批次處理,...

2023-10-02 ‧ 由 肉彈 分享
DAY 18

Day 18 - 使用 Transformers (9) - 總結(get it all together)

在前面幾章節我們講了很多,說了 tokenizer 是怎麼工作的、tokenizaion 的過程、轉換 input ID、padding、attention m...

2023-10-03 ‧ 由 肉彈 分享
DAY 19

Day 19 - 標記資料工具介紹

我們在講載入數據集也就是講 datasets 庫相關的內容前我先來分享一個我用來標記資料的工具。 我要介紹的工具是 Doccano,它是一個開源的文本標註工具和...

2023-10-04 ‧ 由 肉彈 分享
DAY 20

Day 20 - 其他開源資料集、公開平台

這邊會介紹除了 Hugging Face 它本身提供的 Dataset 以外還有哪些資料集我們可以拿來做運用。 1. Kaggle 網站 連結 kaggle 是...

2023-10-05 ‧ 由 肉彈 分享