# Day2-Hugging Face 架構與三大神器 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2022 iThome 鐵人賽

DAY 2

4

AI & Data

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 2 篇

# Day2-Hugging Face 架構與三大神器

14th鐵人賽 huggingface azure machine learning transformer

大魔術熊貓工程師

2022-09-17 20:35:25

40297 瀏覽

分享至

Hugging Face 是開源的

Hugging Face 有完整的生態系和社群，我們幾乎可以只使用 Hugging Face ，就做完大部份最困難的 Transformer 的部份。其主要的 git repository Transformer，有高達 7 萬個星星，並且有超過 1 萬 6 千個 forks，可以說是社群能量相當的驚人。

Hugging Face 是開源的，其授權是 Apache-2.0 license，也就是說完全免費且可以商用，並且不會被開源感染而要強迫開源。用如此開放的開源授權，加上解決了做 Transformer 應用程式的最大痛點，也難怪整個生態系可以如此的壯大。

Hugging Face Hub

存放 Git repo 的地方叫 Github，存放 A 片的地方叫 Pornhub，那麼 Hugging Face Hub 又是什麼呢？

沒錯，就是存放 Hugging Face 的 AI model 的地方！在 Hugging Face Hub，你可以找到上萬個人家訓練好的 AI 模型。

如下圖所示，我們可以在 Models 這個選單，看到很多預訓好的 Models。
koko-huggingface-screenshot

我們可以再進一步點一個 Model，看更多得細節。像是下圖這個 distilbert-base-uncased 是個簡化版的 BERT model。我們可以看到很多的資訊、包含了可用的
AI 框架、授權、引用的論文等等的資訊。
在右邊的面版還有一個 Hosted inference API，你可以在這裡玩一下這個 Model。
koko-huggingface-screenshot

另外還有 Datasets 的部份，很多資料集可以取得。未來我們也會再用到許多 Hugging Face Hub 的功能。
那麼我們就立刻去註冊一個帳號吧！

Hugging Face Library

除了 Hub 以外，最重要的就是 Hugging Face 提供的 Library 啦！有了這些 Library，我們才有辦法更方便地來使用 Transformer 做自然語言處理的應用程式。這些 Library 中，有三個會是最常使用到的，我們稱之為三大神器。

Transformer

Transformer 是三大神器之首，Hugging Face 就是靠這個 Library 讓 Transformer 更容易被大家使用和進一步開發應用程式。

https://github.com/huggingface/transformers

Tokenizers

Tokenize 一般翻譯為斷詞，就是把一個句子裡面的每個字都拆出來。Tokenizers 還提供了很多 tokenization 的策略、還有前處理及後處理等功能。

https://github.com/huggingface/tokenizers

Datasets

大家都知道，要訓練 AI 模型，最大的困難點往往在於資料的收集。而 Hugging Face Datasets 提供了和 Hub 取得資料集的 API，還可以和 Pandas 做交互使用，讓工程師輕鬆處理資料。

https://github.com/huggingface/datasets

其他 Library

當然除了三神器之外，還有其他用的Library，如加速用的 Accelerate、Optimum 等等，未來有機會也會介紹。

架構圖

綜合上面所述，我畫一張簡單的圖來表示 Hub 和 Library 兩部份。左邊是 Hub 的部份，右邊是 Library 的部份，其中三大神器我們放在上面。
koko-huggingface-screenshot

# Day1-變形金剛與抱臉怪的基本介紹

# Day3-Hugging Face 本地端開發環境設定

系列文

變形金剛與抱臉怪---NLP 應用開發之實戰共 30 篇

目錄

RSS系列文訂閱系列文

43 人訂閱

完整目錄

1 則留言

1

tsungmin

iT邦新手 4 級 ‧ 2023-04-23 12:30:48

您好，關於三大神器Transformer是不是應該加s? 才不會跟Transformer Model搞混

回應
檢舉

登入發表回應

我要留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22204 篇

完賽人數

600 人

資安防禦零死角！勒索軟體說掰掰！

IT EXPLAINED |

42 分

基於 BPMN 的微服務設計方法

Cloud Summit 臺灣雲端大會 |

31 分

後疫時代企業必備的遠端部署及即時監控服務

IT EXPLAINED |

45 分

混合工作模式將繼續存在。那麼，您如何才能讓混合工作場所跟上時代的步伐？

IT EXPLAINED |

65 分

第一次寫Operator就上手

Kubernetes Summit |

82 分

製造業 5G 垂直產業應用案例分享＆ 5G-AIOT 高科技業 ADB／AIR 落地解決方案與全球使用實例＆模組化自主移動機器人

IT EXPLAINED |

38 分

如何不經意地搞壞 Kubernetes？

Kubernetes Summit |

24 分

從邊際到雲端，後防疫時代智慧網路的應用

IT EXPLAINED |

31 分

DevOps + Sec 是強力援手還是搗亂者

DevOpsDays |

42 分

一個敏捷實踐的誕生

MWC |

31 分

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js