在上一篇將本地HuggingFace Hub設置完成之後,我們的帳號就等於有連接到本地了那我們現在就開始進行模型的部屬使用! 首先,先去 HuggingFac...
上一篇我們看了如何使用Ollama快速方便的去跑model,今天我們要來看另一種部屬模型的方式,也就是用HuggingFace的Transformer! 首先我...
因為微軟提供的DialoGPT只支援英文,若你用中文跟它聊天,它會不了解語義,會胡亂輸出。 為了能用中文跟DialoGPT對談,我們可以使用Huggingfac...
簡介 昨天 Hugging Face Transformers 發布 v4.42 版,其中 Quantized KV Cache 這個功能特別吸引我,看到量化就...
這篇我使用我之前上傳到 Hugging Face 的模型檔案來解說,那因為在模型訓練那部份我沒講到要如何上傳模型,因此等鐵人賽結束後我會再補充回去。 介紹兩個重...
結果發現我在搞耍,前面的 librosa 下載到 base 環境補完之後依舊出現了其他問題 RuntimeError: Decoding 'mp3' files...
就像上一篇說的,huggingface 上有許多模型可以下載來玩我們就來實際玩看看 huggingface 上的 openai/whisper-small 做為...
上一篇提到我們的模型出來的 CER 並不是非常理想,因此為了讓模型轉錄出來的結果更好,我們需要對模型進行 Fine-tuning,也就是微調我們的模型 在那之前...
簡介 Hugging Face 🤗 Transformers 是訓練 Transformer 模型最知名的套件沒有之一,此套件收入了許多知名模型架構、訓練演算法...
今天我們來補充自然語言處理中的一個很重要的概念:Named Entity Recognition(NER)。 一般翻譯為命名實體辨識、命名實體識別,或也有人翻成...
摘要(summarization)也是自然語言處理中很常見的任務之一,今天我們就來看看 Hugging Face 如何幫我們幫我們做摘要吧! Encoder-D...
我們把昨天的 dataset 做好分詞之後,就可以來訓練自己的模型啦! 載入 PyTorch 和使用 CUDA,然後再用 AutoModelForSequen...
昨天我們做完了一個完整的文本分類的 transformer 了,也準確地預測具有負面意義的詩句,真的是太厲害了。今天我們來看看更方便的 Transformer...
Transformer 是當代自然語言處理最重要的技術了,如果您對於 Word2vec、RNN、seq2seq 等等之類的技術不太熟悉,那麼就先放著沒關係,之後...
我們昨天講了一大堆的分詞理論,如果無法消化吸收也沒有關係,就當做是惡夢一場,忘了吧!今天我們來用 Hugging Face Tokenizer Library,...
昨天我們提到了兩種古典的分詞分式:Character tokenization 和 Word tokenization。然後我們很快發現其盲點,Characte...
在自然語言處理的領域,tokenization 一般會翻譯做分詞,而 tokenizer 一般會翻譯成分詞器。但是在許多程式設計的領域,會把 tokenizat...
昨天 Hugging Face 裡透過 Arrow 和 Stream 兩種機制,讓我們可以有效率的來操作資料,今天我們就來看看 Stream 的部份吧 Stre...
一般訓練模型上,都會建議採用 transfer learning ,可以參考 Day 1 的內容實務,可以節省更多的時間和運算資料。但是如果自己重頭訓練模型的時...
今天我們終於要再繼續寫程式了,沿續使用昨天的 poem_sentiment 這個 dataset。 Hugging Face Datasets Library...
還記得我們在第三天第四天做了的情感分析嗎?判斷句子是 Positive 還是 Negative 這是屬於 text classification 的範圍,算是自...
由於自然語言的訓練往往非常的耗時,建議你有 GPU 會比較節省時間,當然沒有也是可以的,只是會等待比較長的時間。如果你本地的電腦有 GPU 環境的話,那麼我們就...
Hugging Face 是開源的 Hugging Face 有完整的生態系和社群,我們幾乎可以只使用 Hugging Face ,就做完大部份最困難的 Tra...
寫在最前面 本系列文的標題「變形金剛與抱臉怪---NLP 應用開發之實戰」,只是為了譁眾取寵,這系列是要講 Transformer 與 Hugging Face...
程式碼 from datasets import load_dataset giga = load_dataset('gigaword') 報錯內容 File...