前面完成了資料集的圖片標註,在本章節將繼續實作資料集的分類,以及了解資料增強的重要性:
在進行YOLO模型訓練之前,我們需要將資料集分為訓練集、驗證集和測試集三個部分,其目的就好比學生準備考試時,需要透過教材了解知識,閱讀完成一個小章節時透過隨堂測驗來驗證是否真的學會了,最後透過大考來測試成績。而教材、隨堂測驗和大考,分別對應到訓練集、驗證集和測試集。一般常見的資料集分割比例如下:
在一般圖像辨識任務中,理論上應該要有上百甚至上千張資料,但現實中取得資料較為困難,像本次的案例,初期我們手頭只有 18 張圖像。不過這些可以透過後面的資料增強手段來補足,不過也是需要注意,資料量極少時,即使有資料增強,模型效能依然有限。而本案例主要演示從資料集到訓練的整個流程,因此我們可以先按下列的步驟依序來操作:
Step6:點擊左欄Dataset,按常見資料集分割比例7:2:1,將18張圖像作分類。
圖7.1 Roboflow分類資料集的方法
因為Roboflow有限制驗證集和資料集張數最少需要2張,因此本案例將18張圖像分類後,分別為訓練集12張、驗證集3張和測試集3張。
圖7.2 Roboflow分類資料集的成果
Step7:點擊左欄Versions,這裡也顯示了資料集的主要處理步驟:
Step8:點擊Add Augmentation Step。
圖7.4 Roboflow資料集處理步驟4~5
由於建築圖主要是黑白線條及文字為主,所以對於圖像色彩的處理影響有限,例如常見的資料增強方法如色調調整(Hue)、飽和度調整(Saturation)等幾乎無效果。因此,我們需要學習判斷的是,哪些資料增強方式適合應用在建築圖資料集,哪些則不建議使用。
圖7.5 Roboflow資料增強方法
Step9:點擊資料增強選項後,選擇「翻轉、90度旋轉、任意旋轉」的處理方法。
圖7.6 Roboflow資料增強選項
Step10:生成資料增強後的最大資料集張數。(因免費版限制最大僅能放大到3倍)
圖7.7 Roboflow生成擴增資料集
今天我們學習到資料集分類的意義,且在資料集數量較少的情況下,透過Roboflow平台的資料增強方法,實現了資料集數量的擴增。明天我們即將完成資料集的建置工作。!