iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
AI & Data

變形金剛與抱臉怪---NLP 應用開發之實戰 系列

Transformer 已經是學術界和產業界處理各種自然語言處理 (NLP) 的最常用的模型架構,而 Hugging Face 是目前最流行的自然語言處理框架,其生態系相當的完整,可使工程師很容易訓練 NLP 模型。本次30天的內容會涵蓋 Transformer 的理論、Hugging Face 的 API 、中文的自然語處理、部署模型等。會以 Pytorch 為主,並使用 Azure Machine Learning 的 GPU machine 做為開發的環境。

(標題只是譁眾取寵,這系列是要講 Transformer 與 Hugging Face 😂😂)

鐵人鍊成 | 共 30 篇文章 | 38 人訂閱 訂閱系列文 RSS系列文
DAY 1

達標好文 # Day1-變形金剛與抱臉怪的基本介紹

寫在最前面 本系列文的標題「變形金剛與抱臉怪---NLP 應用開發之實戰」,只是為了譁眾取寵,這系列是要講 Transformer 與 Hugging Face...

DAY 2

# Day2-Hugging Face 架構與三大神器

Hugging Face 是開源的 Hugging Face 有完整的生態系和社群,我們幾乎可以只使用 Hugging Face ,就做完大部份最困難的 Tra...

DAY 3

# Day3-Hugging Face 本地端開發環境設定

由於自然語言的訓練往往非常的耗時,建議你有 GPU 會比較節省時間,當然沒有也是可以的,只是會等待比較長的時間。如果你本地的電腦有 GPU 環境的話,那麼我們就...

DAY 4

# Day4-Hugging Face 雲端開發環境設定

在第一天有講過,如果本地端電腦沒有 GPU 的話,也可以考慮雲端環境。而實務上,因為雲端的高度彈性,往往會選用雲端環境來做開發測試。至於為什麼該使用雲端,這個又...

DAY 5

# Day5-Hugging Face Hub Dataset

還記得我們在第三天第四天做了的情感分析嗎?判斷句子是 Positive 還是 Negative 這是屬於 text classification 的範圍,算是自...

DAY 6

# Day6-初探 Hugging Face Dataset Library

今天我們終於要再繼續寫程式了,沿續使用昨天的 poem_sentiment 這個 dataset。 Hugging Face Datasets Library...

DAY 7

# Day7-載入自己的 Dataset

昨天我們練習了用 Hugging Face Datasets Library 來把 Hugging Face Hub 上的 dataset 載下來,今天我們來試...

DAY 8

# Day8-載入極巨大的 Dataset -- Arrow 篇

一般訓練模型上,都會建議採用 transfer learning ,可以參考 Day 1 的內容實務,可以節省更多的時間和運算資料。但是如果自己重頭訓練模型的時...

DAY 9

# Day9-載入極巨大的 Dataset -- Stream 篇

昨天 Hugging Face 裡透過 Arrow 和 Stream 兩種機制,讓我們可以有效率的來操作資料,今天我們就來看看 Stream 的部份吧 Stre...

DAY 10

# Day10-Tokenizer 入門

在自然語言處理的領域,tokenization 一般會翻譯做分詞,而 tokenizer 一般會翻譯成分詞器。但是在許多程式設計的領域,會把 tokenizat...

大魔術熊貓工程師的收藏
大魔術熊貓工程師的追蹤
大魔術熊貓工程師的Like
大魔術熊貓工程師的紀錄