昨天我們練習了用 Hugging Face Datasets Library 來把 Hugging Face Hub 上的 dataset 載下來,今天我們來試著戴入自己的 Dataset 吧!
昨天我們用 sentiment = load_dataset("poem_sentiment")
來載入 Hugging Face Hub 上的 dataset,今天我們也是可以用類似的方法來載入。
csv_dataset = load_dataset("csv", data_files="my_dataset.csv")
txt_dataset = load_dataset("text", data_files="my_dataset.txt")
json_dataset = load_dataset("json", data_files="my_dataset.jsonl") #注意這裡用的是 JSON Lines 的格式
pandas_dataset = load_dataset("pandas", data_files="my_dataset.pkl")
csv_dataset = load_dataset("csv", data_files="my_dataset.csv",sep=",",
names=["text", "label"])
很多時候我們自己的 dataset ,不是放在自己本地端電腦,而是放在雲服務上面,例如說 AWS S3 或是 Azure Blob 這類的 Object storage 裡面,甚至是 dropbox 雲端硬碟裡面。我們也可以把這類的 Dataset 載進來。
dataset_url = "https://your.dataset/url"
!wget {dataset_url}
url = "https://your.dataset/url"
remote_dataset = load_dataset("csv", data_files=url)
url = "https://your.dataset/url"
data_files = {
"train": url + "train.json.gz",
"test": url + "json.gz",
}
# 這裡可以省下解壓縮 gz 檔的動作,直接 load 成 dataset,非常的方便實用
remote_dataset = load_dataset("json", data_files=data_files)
以上就是今天關於載入自己 dataset 的操作啦!實務上這反而是最常用到的,因為我們的想訓練給自己應用程式的 dataset ,往往是屬於自己專業領域的 domain knowhow ,不會出現在 Hugging Face Hub 上面的。
此外,實務上還會很常碰到超級巨大的 dataset,畢章我們要訓練一個好的 AI model ,就是要讓它看過一大堆的資料。明天我們再來聊聊怎麼匯入超級巨大的 dataset,以及在 Hugging Face 裡面的優化機制吧!