在我們把資料集放進 Core ML 的專案進行訓練之前,我們必須先整理我們的資料集,才有辦法喂資料給 Core ML 的專案
在 Core ML 中,訓練模型的資料集需要切分成三個部分,分別是訓練集、測試集和驗證集
訓練集(Training Set):
訓練集是用來訓練機器學習模型的主要數據集。模型通過訓練集中的樣本來學習和調整模型的參數,以使其能夠進行預測或分類。
測試集(Test Set):
測試集用於評估機器學習模型的性能。一旦模型在訓練集上訓練完成,它會使用測試集上的數據進行預測,以評估其在未見過的數據上的表現。
驗證集(Validation Set):
驗證集用於在模型訓練過程中調整超參數和評估模型的性能。它通常用於選擇最佳模型或調整模型的參數,以避免過度擬合(Overfitting)。
內容:與訓練集類似,驗證集也包含已知標籤的數據樣本,但它不參與訓練過程。
雖然訓練模型時,我們需要驗證集,但 Core ML 可以直接從訓練集中分離驗證集出來使用,所以不用另外準備驗證集
所以我們可以把資料拆分成訓練集和測試集:
由於我要訓練的是可以判斷貓和狗的模型,我在這兩個資料夾裡各分了 2 個類
分別是 Cat 和 Dog
分完之後,就可以放到 Core Ml 中進行訓練的部分囉,明天會教大家怎麼建立一個 Core ML 專案!