各位夥伴,昨天我們學習了遷移學習的概念,知道我們可以站在 VGG 或 ResNet 這些巨人的肩膀上。今天,我們就要確定要讓這些巨人為我們做什麼——規劃你的專案 (Idea),並準備好巨人的食糧——資料集 (Dataset)。
我這次做的是:自然災害影像分類
專案目標: 建構一個模型,能將輸入圖片準確地分類到N個自然災害類別中(例如:乾旱 Drought、海嘯 Tsunami、龍捲風 Tornado、沙塵暴 Sandstorm 等)。輸出成果: 輸出圖片屬於哪一種災害的機率,提升災情回報效率。
二、我的資料集準備 (The Dataset):
我蒐集到的影像資料集切分成三個至關重要的部分
| 部分(Dataset Split) | 我如何使用它 | 關鍵作用 |
|---|---|---|
| 訓練集 Training Set | 用於模型學習權重;是主要「餵食」資料 | 讓 Loss 下降、學到特徵 |
| 驗證集 Validation Set | 訓練過程中評估模型表現、調參與早停 | 最重要:偵測過擬合、監控學習 |
| 測試集 Test Set | 訓練完成後做最終一次客觀評估 | 檢驗泛化能力的最終成績 |
*類別平衡 : 我想努力維持每個災害類別的樣本數量大致相等。這樣做是為了防止模型偏向預測數量多的類別,導致我的訓練結果失真。
我已經完成了專案的構思、資料的蒐集與結構規劃,並制定了對抗資料稀缺的策略。我的目標明確:利用 ResNet34 的強大基底,打造一個高效的災害影像分類模型。接下來,我們要將這些靜態的圖片檔案,轉化為 PyTorch 能夠處理的動態資料流。