變形金剛與抱臉怪---NLP 應用開發之實戰

大魔術熊貓工程師 (magic_panda_engineer)

iT邦新手 3 級 ‧ 點數 623

55473

累計瀏覽數

96人

在追蹤

站內簡訊追蹤

鐵人檔案

2022 iThome 鐵人賽

回列表

AI & Data

變形金剛與抱臉怪---NLP 應用開發之實戰系列

Transformer 已經是學術界和產業界處理各種自然語言處理 (NLP) 的最常用的模型架構，而 Hugging Face 是目前最流行的自然語言處理框架，其生態系相當的完整，可使工程師很容易訓練 NLP 模型。本次30天的內容會涵蓋 Transformer 的理論、Hugging Face 的 API 、中文的自然語處理、部署模型等。會以 Pytorch 為主，並使用 Azure Machine Learning 的 GPU machine 做為開發的環境。

（標題只是譁眾取寵，這系列是要講 Transformer 與 Hugging Face 😂😂）

鐵人鍊成｜共 30 篇文章｜ 46 人訂閱訂閱系列文 RSS系列文

5 Like 0 留言 10900 瀏覽

DAY 1

達標好文 # Day1-變形金剛與抱臉怪的基本介紹

寫在最前面本系列文的標題「變形金剛與抱臉怪---NLP 應用開發之實戰」，只是為了譁眾取寵，這系列是要講 Transformer 與 Hugging Face...

2022-09-16 ‧ 由大魔術熊貓工程師分享

4 Like 1 留言 45571 瀏覽

DAY 2

# Day2-Hugging Face 架構與三大神器

Hugging Face 是開源的 Hugging Face 有完整的生態系和社群，我們幾乎可以只使用 Hugging Face ，就做完大部份最困難的 Tra...

2022-09-17 ‧ 由大魔術熊貓工程師分享

1 Like 0 留言 11240 瀏覽

DAY 3

# Day3-Hugging Face 本地端開發環境設定

由於自然語言的訓練往往非常的耗時，建議你有 GPU 會比較節省時間，當然沒有也是可以的，只是會等待比較長的時間。如果你本地的電腦有 GPU 環境的話，那麼我們就...

2022-09-18 ‧ 由大魔術熊貓工程師分享

0 Like 0 留言 8457 瀏覽

DAY 4

# Day4-Hugging Face 雲端開發環境設定

在第一天有講過，如果本地端電腦沒有 GPU 的話，也可以考慮雲端環境。而實務上，因為雲端的高度彈性，往往會選用雲端環境來做開發測試。至於為什麼該使用雲端，這個又...

2022-09-19 ‧ 由大魔術熊貓工程師分享

0 Like 0 留言 7721 瀏覽

DAY 5

# Day5-Hugging Face Hub Dataset

還記得我們在第三天第四天做了的情感分析嗎？判斷句子是 Positive 還是 Negative 這是屬於 text classification 的範圍，算是自...

2022-09-20 ‧ 由大魔術熊貓工程師分享

0 Like 0 留言 8724 瀏覽

DAY 6

# Day6-初探 Hugging Face Dataset Library

今天我們終於要再繼續寫程式了，沿續使用昨天的 poem_sentiment 這個 dataset。 Hugging Face Datasets Library...

2022-09-21 ‧ 由大魔術熊貓工程師分享

0 Like 0 留言 8642 瀏覽

DAY 7

# Day7-載入自己的 Dataset

昨天我們練習了用 Hugging Face Datasets Library 來把 Hugging Face Hub 上的 dataset 載下來，今天我們來試...

2022-09-22 ‧ 由大魔術熊貓工程師分享

0 Like 0 留言 5942 瀏覽

DAY 8

# Day8-載入極巨大的 Dataset -- Arrow 篇

一般訓練模型上，都會建議採用 transfer learning ，可以參考 Day 1 的內容實務，可以節省更多的時間和運算資料。但是如果自己重頭訓練模型的時...

2022-09-23 ‧ 由大魔術熊貓工程師分享

0 Like 0 留言 4965 瀏覽

DAY 9

# Day9-載入極巨大的 Dataset -- Stream 篇

昨天 Hugging Face 裡透過 Arrow 和 Stream 兩種機制，讓我們可以有效率的來操作資料，今天我們就來看看 Stream 的部份吧 Stre...

2022-09-24 ‧ 由大魔術熊貓工程師分享

1 Like 0 留言 12158 瀏覽

DAY 10

# Day10-Tokenizer 入門

在自然語言處理的領域，tokenization 一般會翻譯做分詞，而 tokenizer 一般會翻譯成分詞器。但是在許多程式設計的領域，會把 tokenizat...

2022-09-25 ‧ 由大魔術熊貓工程師分享

大魔術熊貓工程師的鐵人檔案

大魔術熊貓工程師的收藏

大魔術熊貓工程師的追蹤

大魔術熊貓工程師的Like

大魔術熊貓工程師的紀錄

大魔術熊貓工程師的訂閱列表

鐵人檔案

變形金剛與抱臉怪---NLP 應用開發之實戰 系列

達標好文 # Day1-變形金剛與抱臉怪的基本介紹

標記使用者

變形金剛與抱臉怪---NLP 應用開發之實戰系列