iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
AI & Data

變形金剛與抱臉怪---NLP 應用開發之實戰 系列

Transformer 已經是學術界和產業界處理各種自然語言處理 (NLP) 的最常用的模型架構,而 Hugging Face 是目前最流行的自然語言處理框架,其生態系相當的完整,可使工程師很容易訓練 NLP 模型。本次30天的內容會涵蓋 Transformer 的理論、Hugging Face 的 API 、中文的自然語處理、部署模型等。會以 Pytorch 為主,並使用 Azure Machine Learning 的 GPU machine 做為開發的環境。

(標題只是譁眾取寵,這系列是要講 Transformer 與 Hugging Face 😂😂)

鐵人鍊成 | 共 30 篇文章 | 38 人訂閱 訂閱系列文 RSS系列文
DAY 11

# Day11-當代的 Tokenizer algorithm

昨天我們提到了兩種古典的分詞分式:Character tokenization 和 Word tokenization。然後我們很快發現其盲點,Characte...

DAY 12

# Day12-Hugging Face Tokenizer

我們昨天講了一大堆的分詞理論,如果無法消化吸收也沒有關係,就當做是惡夢一場,忘了吧!今天我們來用 Hugging Face Tokenizer Library,...

DAY 13

# Day13-Hugging Face Transformer 入門

Transformer 是當代自然語言處理最重要的技術了,如果您對於 Word2vec、RNN、seq2seq 等等之類的技術不太熟悉,那麼就先放著沒關係,之後...

DAY 14

# Day14-Hugging Face Transformer Pipeline 和 TF model

昨天我們做完了一個完整的文本分類的 transformer 了,也準確地預測具有負面意義的詩句,真的是太厲害了。今天我們來看看更方便的 Transformer...

DAY 15

# Day15- Fine-tune Transformer --- 資料處理篇

這幾天我們做完了一個完整的文本分類的 transformer 了,但是我們做的內容,都是直接呼叫人家做好的 pre-trained model。其訓練的資料內容...

DAY 16

# Day16- Fine-tune Transformer --- 訓練模型篇

我們把昨天的 dataset 做好分詞之後,就可以來訓練自己的模型啦! 載入 PyTorch 和使用 CUDA,然後再用 AutoModelForSequen...

DAY 17

# Day17-Transformer 的種類

Transformer 內有一組很關鍵的機制,是一種 encoder-decoder 的架構。 Encoder 主要扮演的角色是把輸入的一連串的 token 轉...

DAY 18

# Day18-Hugging Face 文本生成入門

今天我們來講文本生成(Text generation)。文本生成是迭代來完成的,預測「I have a pen, I have an ......」的下一個字機...

DAY 19

# Day19-Hugging Face 文本生成進階

今天我們來講講怎麼優化文本生成。 Greedy Search 所謂的貪婪搜尋,在 Hugging Face 就不用自己實做了,只要設定這樣子的參數就可以了:n...

DAY 20

# Day20-Hugging Face 中文的文本生成

應觀眾要求,希望快點講中文的自然語言處理,於是就插撥了今天的內容。中研院的詞庫小組有在 Hugging Face 上傳大量的基於繁體中文訓練的模型,可以參考這邊...

大魔術熊貓工程師的收藏
大魔術熊貓工程師的追蹤
大魔術熊貓工程師的Like
大魔術熊貓工程師的紀錄