iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

4 Like 1 留言 34466 瀏覽

鐵人賽 AI & Data DAY 2

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 2 篇

技術 # Day2-Hugging Face 架構與三大神器

Hugging Face 是開源的 Hugging Face 有完整的生態系和社群，我們幾乎可以只使用 Hugging Face ，就做完大部份最困難的 Tra...

大魔術熊貓工程師 ‧ 2022-09-17

4 Like 0 留言 9393 瀏覽

鐵人賽 AI & Data DAY 1

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 1 篇

達標好文技術 # Day1-變形金剛與抱臉怪的基本介紹

寫在最前面本系列文的標題「變形金剛與抱臉怪---NLP 應用開發之實戰」，只是為了譁眾取寵，這系列是要講 Transformer 與 Hugging Face...

大魔術熊貓工程師 ‧ 2022-09-16

1 Like 0 留言 9062 瀏覽

鐵人賽 AI & Data DAY 10

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 10 篇

技術 # Day10-Tokenizer 入門

在自然語言處理的領域，tokenization 一般會翻譯做分詞，而 tokenizer 一般會翻譯成分詞器。但是在許多程式設計的領域，會把 tokenizat...

大魔術熊貓工程師 ‧ 2022-09-25

1 Like 0 留言 8952 瀏覽

鐵人賽 AI & Data DAY 3

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 3 篇

技術 # Day3-Hugging Face 本地端開發環境設定

由於自然語言的訓練往往非常的耗時，建議你有 GPU 會比較節省時間，當然沒有也是可以的，只是會等待比較長的時間。如果你本地的電腦有 GPU 環境的話，那麼我們就...

大魔術熊貓工程師 ‧ 2022-09-18

0 Like 0 留言 8168 瀏覽

鐵人賽 AI & Data DAY 6

[自然語言處理NLP]BERT系列Model的應用、訓練技巧與實戰系列第 6 篇

技術【Day 6】BERT由Transformer模型構建而成

前五天，我們講解了BERT模型的核心概念、輸入輸出以及模型的類型，現在讓我們進入模型的結構、原理部分，來談一談作為BERT模型的原始架構的Transformer...

wow1310s ‧ 2021-09-09

0 Like 0 留言 7919 瀏覽

鐵人賽 AI & Data DAY 24

邁向成為語言資料科學家的偉大航道系列第 24 篇

技術【NLP】Day 24: 欸！BERT！你在幹嘛呀？BERT 模型實作＆程式碼解析

別想太多，做就對了！《捍衛戰士：獨行俠》前兩天我們已經了解 BERT 的內部運作，還有 BERT 在進行語言處理上的一些缺陷。今天不聊理論，我們來簡單一一...

milanochuang ‧ 2022-10-09 ‧團隊KnULPers_from_NCCU

1 Like 0 留言 7514 瀏覽

鐵人賽 AI & Data DAY 12

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 12 篇

技術 # Day12-Hugging Face Tokenizer

我們昨天講了一大堆的分詞理論，如果無法消化吸收也沒有關係，就當做是惡夢一場，忘了吧！今天我們來用 Hugging Face Tokenizer Library，...

大魔術熊貓工程師 ‧ 2022-09-27

1 Like 0 留言 7453 瀏覽

鐵人賽 AI & Data DAY 16

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 16 篇

技術 # Day16- Fine-tune Transformer --- 訓練模型篇

我們把昨天的 dataset 做好分詞之後，就可以來訓練自己的模型啦！載入 PyTorch 和使用 CUDA，然後再用 AutoModelForSequen...

大魔術熊貓工程師 ‧ 2022-10-01

0 Like 0 留言 6951 瀏覽

鐵人賽 AI & Data DAY 7

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 7 篇

技術 # Day7-載入自己的 Dataset

昨天我們練習了用 Hugging Face Datasets Library 來把 Hugging Face Hub 上的 dataset 載下來，今天我們來試...

大魔術熊貓工程師 ‧ 2022-09-22

0 Like 0 留言 6748 瀏覽

鐵人賽 AI & Data DAY 4

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 4 篇

技術 # Day4-Hugging Face 雲端開發環境設定

在第一天有講過，如果本地端電腦沒有 GPU 的話，也可以考慮雲端環境。而實務上，因為雲端的高度彈性，往往會選用雲端環境來做開發測試。至於為什麼該使用雲端，這個又...

大魔術熊貓工程師 ‧ 2022-09-19

0 Like 0 留言 6720 瀏覽

鐵人賽 AI & Data DAY 6

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 6 篇

技術 # Day6-初探 Hugging Face Dataset Library

今天我們終於要再繼續寫程式了，沿續使用昨天的 poem_sentiment 這個 dataset。 Hugging Face Datasets Library...

大魔術熊貓工程師 ‧ 2022-09-21

1 Like 0 留言 6305 瀏覽

鐵人賽 AI & Data DAY 11

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 11 篇

技術 # Day11-當代的 Tokenizer algorithm

昨天我們提到了兩種古典的分詞分式：Character tokenization 和 Word tokenization。然後我們很快發現其盲點，Characte...

大魔術熊貓工程師 ‧ 2022-09-26

0 Like 0 留言 6274 瀏覽

鐵人賽 AI & Data DAY 5

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 5 篇

技術 # Day5-Hugging Face Hub Dataset

還記得我們在第三天第四天做了的情感分析嗎？判斷句子是 Positive 還是 Negative 這是屬於 text classification 的範圍，算是自...

大魔術熊貓工程師 ‧ 2022-09-20

1 Like 0 留言 5474 瀏覽

鐵人賽 AI & Data DAY 20

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 20 篇

技術 # Day20-Hugging Face 中文的文本生成

應觀眾要求，希望快點講中文的自然語言處理，於是就插撥了今天的內容。中研院的詞庫小組有在 Hugging Face 上傳大量的基於繁體中文訓練的模型，可以參考這邊...

大魔術熊貓工程師 ‧ 2022-10-05

0 Like 0 留言 4973 瀏覽

鐵人賽 AI & Data DAY 18

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 18 篇

技術 # Day18-Hugging Face 文本生成入門

今天我們來講文本生成(Text generation)。文本生成是迭代來完成的，預測「I have a pen, I have an ......」的下一個字機...

大魔術熊貓工程師 ‧ 2022-10-03

0 Like 0 留言 4859 瀏覽

鐵人賽自我挑戰組 DAY 25

30天初步了解自然語言處理-自學筆記系列第 25 篇

技術 [Day25] NLP會用到的模型(八)-transformer decoder

一. decoder 架構如下: decoder主要是解析encoder的資訊，轉換成output的形式decoder分成下面三個子層: Masked Mul...

eating ‧ 2021-09-25

0 Like 0 留言 4652 瀏覽

鐵人賽 AI & Data DAY 8

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 8 篇

技術 # Day8-載入極巨大的 Dataset -- Arrow 篇

一般訓練模型上，都會建議採用 transfer learning ，可以參考 Day 1 的內容實務，可以節省更多的時間和運算資料。但是如果自己重頭訓練模型的時...

大魔術熊貓工程師 ‧ 2022-09-23

1 Like 0 留言 4609 瀏覽

鐵人賽 AI & Data DAY 13

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 13 篇

技術 # Day13-Hugging Face Transformer 入門

Transformer 是當代自然語言處理最重要的技術了，如果您對於 Word2vec、RNN、seq2seq 等等之類的技術不太熟悉，那麼就先放著沒關係，之後...

大魔術熊貓工程師 ‧ 2022-09-28

0 Like 0 留言 4388 瀏覽

鐵人賽 AI & Data DAY 23

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 23 篇

技術 # Day23- Fine-tuned 摘要任務的 transformer

今天我們講怎麼 find-tuned 摘要任務，今天會很吃 GPU ，不一定每個人都能跑，不過也有比較節省 GPU 的寫法。我們來用這個 dataset ，...

大魔術熊貓工程師 ‧ 2022-10-08

1 Like 0 留言 4063 瀏覽

鐵人賽 AI & Data DAY 15

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 15 篇

技術 # Day15- Fine-tune Transformer --- 資料處理篇

這幾天我們做完了一個完整的文本分類的 transformer 了，但是我們做的內容，都是直接呼叫人家做好的 pre-trained model。其訓練的資料內容...

大魔術熊貓工程師 ‧ 2022-09-30

0 Like 0 留言 4023 瀏覽

鐵人賽 AI & Data DAY 9

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 9 篇

技術 # Day9-載入極巨大的 Dataset -- Stream 篇

昨天 Hugging Face 裡透過 Arrow 和 Stream 兩種機制，讓我們可以有效率的來操作資料，今天我們就來看看 Stream 的部份吧 Stre...

大魔術熊貓工程師 ‧ 2022-09-24

0 Like 0 留言 3975 瀏覽

鐵人賽 AI & Data DAY 14

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 14 篇

技術 # Day14-Hugging Face Transformer Pipeline 和 TF model

昨天我們做完了一個完整的文本分類的 transformer 了，也準確地預測具有負面意義的詩句，真的是太厲害了。今天我們來看看更方便的 Transformer...

大魔術熊貓工程師 ‧ 2022-09-29

3 Like 1 留言 3570 瀏覽

鐵人賽 AI & Data DAY 2

LLM 學習筆記系列第 2 篇

技術 LLM Note Day 2 - 神經網路語言模型

簡介透過文本捕捉語言結構，進而建立一個統計機率模型，廣義而言就可以被稱作一種語言模型。本文主要介紹透過神經網路訓練出來的語言模型，以及常見 Transform...

Penut Chen ‧ 2023-09-17 ‧團隊消波塊上的海洋貓貓

0 Like 0 留言 3302 瀏覽

鐵人賽自我挑戰組

AI 高中生的自我學習系列第 23 篇

技術 Day 23 - 天眼CNN 的耳朵和嘴巴 - Transformer

RNN問題及解法 RNN 有字數限制, 最多到200字, 超過效果不好。The fall of RNN / LSTM 針對基於CNN和RNN的Seq2Seq模型...

Harry Lin ‧ 2020-12-23

0 Like 0 留言 3265 瀏覽

鐵人賽 AI & Data DAY 19

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 19 篇

技術 # Day19-Hugging Face 文本生成進階

今天我們來講講怎麼優化文本生成。 Greedy Search 所謂的貪婪搜尋，在 Hugging Face 就不用自己實做了，只要設定這樣子的參數就可以了：n...

大魔術熊貓工程師 ‧ 2022-10-04

0 Like 0 留言 3087 瀏覽

鐵人賽 AI & Data DAY 22

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 22 篇

技術 # Day22-評價摘要好壞的演算法

評價摘要的好壞我們用了兩個模型做了摘要，那麼有沒有辦法評價摘要的好壞呢？常見評價摘要的算法有兩種，一個是 BLEU，一個是 ROGUE。 BLEU 是一種...

大魔術熊貓工程師 ‧ 2022-10-07

0 Like 0 留言 2990 瀏覽

鐵人賽 AI & Data DAY 25

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 25 篇

技術 # Day25- Hugging Face 問答任務

很快地我們 Hugging Face 的旅程來到了最後一個任務：問答任務啦！Question answering 一直是自然語言處理中很困難的部份。最常使用的是...

大魔術熊貓工程師 ‧ 2022-10-10

0 Like 0 留言 2985 瀏覽

鐵人賽 AI & Data DAY 17

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 17 篇

技術 # Day17-Transformer 的種類

Transformer 內有一組很關鍵的機制，是一種 encoder-decoder 的架構。 Encoder 主要扮演的角色是把輸入的一連串的 token 轉...

大魔術熊貓工程師 ‧ 2022-10-02

1 Like 0 留言 2806 瀏覽

鐵人賽 AI & Data DAY 20

邁向成為語言資料科學家的偉大航道系列第 20 篇

技術【NLP】Day 20: 放點注意力在多頭上（NLP也有多頭啊！）：Transformer（下）

空頭不死，多頭不止；多頭不死，空頭不止不詳在股票市場中，人人著稱的一句話：「空頭不死，多頭不止；多頭不死，空頭不止。」意思是，如果股價在下降的趨勢時中，如...

milanochuang ‧ 2022-10-05 ‧團隊KnULPers_from_NCCU

0 Like 0 留言 2497 瀏覽

鐵人賽 AI & Data DAY 26

變形金剛與抱臉怪---NLP 應用開發之實戰系列第 26 篇

技術 # Day26- 當代QA系統的架構

昨天我們用 Hugging Face 做了QA ，但是大家想必發現了很麻煩的一件事情：每次都要把 context 送進去才行。這真的很麻煩，而且處理 conte...

大魔術熊貓工程師 ‧ 2022-10-11