Hugging Face 是開源的 Hugging Face 有完整的生態系和社群,我們幾乎可以只使用 Hugging Face ,就做完大部份最困難的 Tra...
在自然語言處理的領域,tokenization 一般會翻譯做分詞,而 tokenizer 一般會翻譯成分詞器。但是在許多程式設計的領域,會把 tokenizat...
由於自然語言的訓練往往非常的耗時,建議你有 GPU 會比較節省時間,當然沒有也是可以的,只是會等待比較長的時間。如果你本地的電腦有 GPU 環境的話,那麼我們就...
寫在最前面 本系列文的標題「變形金剛與抱臉怪---NLP 應用開發之實戰」,只是為了譁眾取寵,這系列是要講 Transformer 與 Hugging Face...
我們把昨天的 dataset 做好分詞之後,就可以來訓練自己的模型啦! 載入 PyTorch 和使用 CUDA,然後再用 AutoModelForSequen...
我們昨天講了一大堆的分詞理論,如果無法消化吸收也沒有關係,就當做是惡夢一場,忘了吧!今天我們來用 Hugging Face Tokenizer Library,...
昨天我們練習了用 Hugging Face Datasets Library 來把 Hugging Face Hub 上的 dataset 載下來,今天我們來試...
今天我們終於要再繼續寫程式了,沿續使用昨天的 poem_sentiment 這個 dataset。 Hugging Face Datasets Library...
在第一天有講過,如果本地端電腦沒有 GPU 的話,也可以考慮雲端環境。而實務上,因為雲端的高度彈性,往往會選用雲端環境來做開發測試。至於為什麼該使用雲端,這個又...
還記得我們在第三天第四天做了的情感分析嗎?判斷句子是 Positive 還是 Negative 這是屬於 text classification 的範圍,算是自...
昨天我們提到了兩種古典的分詞分式:Character tokenization 和 Word tokenization。然後我們很快發現其盲點,Characte...
應觀眾要求,希望快點講中文的自然語言處理,於是就插撥了今天的內容。中研院的詞庫小組有在 Hugging Face 上傳大量的基於繁體中文訓練的模型,可以參考這邊...
今天我們來講文本生成(Text generation)。文本生成是迭代來完成的,預測「I have a pen, I have an ......」的下一個字機...
一般訓練模型上,都會建議採用 transfer learning ,可以參考 Day 1 的內容實務,可以節省更多的時間和運算資料。但是如果自己重頭訓練模型的時...
Transformer 是當代自然語言處理最重要的技術了,如果您對於 Word2vec、RNN、seq2seq 等等之類的技術不太熟悉,那麼就先放著沒關係,之後...
今天我們講怎麼 find-tuned 摘要任務,今天會很吃 GPU ,不一定每個人都能跑,不過也有比較節省 GPU 的寫法。 我們來用這個 dataset ,...
昨天我們把 Hugging Face 的 model 部署到 Azure 上了,也成功用 Web API 來跑文本生成,今天我們就來用這支 API,串接到聊天機...
昨天我們做完了一個完整的文本分類的 transformer 了,也準確地預測具有負面意義的詩句,真的是太厲害了。今天我們來看看更方便的 Transformer...
Azure machine learning: deploy service and inference- 模型訓練完就是要拿來用啊 搞了半天,終於有了一個堪用...
這幾天我們做完了一個完整的文本分類的 transformer 了,但是我們做的內容,都是直接呼叫人家做好的 pre-trained model。其訓練的資料內容...
評價摘要的好壞 我們用了兩個模型做了摘要,那麼有沒有辦法評價摘要的好壞呢?常見評價摘要的算法有兩種,一個是 BLEU,一個是 ROGUE。 BLEU 是一種...
Chatbot integration- 匯率預測小工具 醜話先說在前頭,模型雖然可以達到一定程度準確,但你要拿來 ALL IN 炒匯,輸贏可不甘我的事啊!我只...
Azure machine learning: Pipeline for model and service- 把工作通通串起來 接續上一篇,上一篇搞懂了pip...
Azure machine learning: training experiment and register model- 以 LSTM 模型為例 這篇終於...
今天我們來講講怎麼優化文本生成。 Greedy Search 所謂的貪婪搜尋,在 Hugging Face 就不用自己實做了,只要設定這樣子的參數就可以了:n...
Azure machine learning: Upload data- 自己的資料自己傳 要做匯率的預測模型,就必須準備匯率的歷史資料,我想investing...
Azure machine learning: Schedule- Azure 為你定期執行任務 前面利用pipeline管線把好幾個不同的工作項目串接起來了,...
Azure machine learning: Pipeline for data- 建立工作流程來收集資料 Pipeline,流水線或管線,顧名思義,就是讓程...
Transformer 內有一組很關鍵的機制,是一種 encoder-decoder 的架構。 Encoder 主要扮演的角色是把輸入的一連串的 token 轉...
Chatbot integration- 多功能 chatbot 就此誕生! 終於到了這一步,要把所有功能整合在一起了。前面雖然很痛苦,但在我看來最痛苦的還是這...