iT邦幫忙

2023 iThome 鐵人賽

DAY 29
0

這篇我使用我之前上傳到 Hugging Face 的模型檔案來解說,那因為在模型訓練那部份我沒講到要如何上傳模型,因此等鐵人賽結束後我會再補充回去。

介紹兩個重要的部分 (先來說最重要的)

  1. files : 模型的檔案
    https://ithelp.ithome.com.tw/upload/images/20231014/201604368c2EaUTOK0.png
  • README.md:README 文件包含了模型的基本資訊,有關模型的描述性文件。
  • config.json:包含了有關模型配置的 JSON 檔案。它描述了模型的架構、超參數和其他配置資訊。
  • pytorch_model.bin:這是 PyTorch 模型的二進位權重文件,包含了訓練完成的模型參數。
  • special_tokens_map.json:這個 JSON 檔案描述了特殊標記(如[PAD]、[CLS]、[SEP]等)的映射和設定資訊。
  • tokenizer.json:此 JSON 檔案包含了有關標記器(tokenizer)的配置信息,用於將文字轉換為模型的輸入格式。
  • tokenizer_config.json:這個 JSON 檔案也包含有關標記器(tokenizer)的設定信息,通常與tokenizer.json檔案相關。
  • Training_args.bin:二進位訓練文件,包含訓練參數和訓練過程的配置資訊。它可以用於還原模型的設定。
  • vocab.txt:此文字檔案包含了模型訓練的詞彙表,包括模型期間遇到的所有詞彙。

    但這些全部的檔案內容我們在使用時也會全部一起載入,基本上也不用太深入地去理解

  1. Model card
    https://ithelp.ithome.com.tw/upload/images/20231014/20160436k6rhKibr8x.png
    在預設不去更動 Model card 的情況下,他會包含以下內容

      1. 模型的分數和效能等分數
        https://ithelp.ithome.com.tw/upload/images/20231014/20160436dgQ545lsFt.png
      1. 訓練參數
        https://ithelp.ithome.com.tw/upload/images/20231014/20160436N1qoBKEz05.png
      1. 訓練的過程
        https://ithelp.ithome.com.tw/upload/images/20231014/20160436NRg5z2WQZN.png
      1. 一些套件的版本
        https://ithelp.ithome.com.tw/upload/images/20231014/20160436MJ2ggyy6Yi.png
      1. 簡易的API (這是我覺得最棒的地方,他這裡就可以直接試用看看模型的結果)
        ,下面的句子範例事之前訓練品牌和物品兩種的模型
        https://ithelp.ithome.com.tw/upload/images/20231014/20160436mIHKfS1PpE.png

參考資料


上一篇
Day 28 - NER 模型評估和驗證
下一篇
Day 30 - 建立 Gradio Demo App
系列文
30天從零開始學習NLP(自然語言處理) 30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言