iT邦幫忙

2025 iThome 鐵人賽

0
AI & Data

從入門村到最終 BOSS:30 天打通深度學習主線系列 第 18

Day 18專案發想與資料集準備 (IDEA & DATASET)

  • 分享至 

  • xImage
  •  

各位夥伴,昨天我們學習了遷移學習的概念,知道我們可以站在 VGG 或 ResNet 這些巨人的肩膀上。今天,我們就要確定要讓這些巨人為我們做什麼——規劃你的專案 (Idea),並準備好巨人的食糧——資料集 (Dataset)。

我這次做的是:自然災害影像分類
專案目標: 建構一個模型,能將輸入圖片準確地分類到N個自然災害類別中(例如:乾旱 Drought、海嘯 Tsunami、龍捲風 Tornado、沙塵暴 Sandstorm 等)。輸出成果: 輸出圖片屬於哪一種災害的機率,提升災情回報效率。

二、我的資料集準備 (The Dataset):
我蒐集到的影像資料集切分成三個至關重要的部分

部分(Dataset Split) 我如何使用它 關鍵作用
訓練集 Training Set 用於模型學習權重;是主要「餵食」資料 讓 Loss 下降、學到特徵
驗證集 Validation Set 訓練過程中評估模型表現、調參與早停 最重要:偵測過擬合、監控學習
測試集 Test Set 訓練完成後做最終一次客觀評估 檢驗泛化能力的最終成績
  1. 對數量與平衡的要求
    *數量要求: 即使使用了遷移學習,我也盡可能確保每個類別的圖片數量在 100-200 張以上。

*類別平衡 : 我想努力維持每個災害類別的樣本數量大致相等。這樣做是為了防止模型偏向預測數量多的類別,導致我的訓練結果失真。

我已經完成了專案的構思、資料的蒐集與結構規劃,並制定了對抗資料稀缺的策略。我的目標明確:利用 ResNet34 的強大基底,打造一個高效的災害影像分類模型。接下來,我們要將這些靜態的圖片檔案,轉化為 PyTorch 能夠處理的動態資料流。


上一篇
Day 17:遷移學習 Transfer Learning 概念
系列文
從入門村到最終 BOSS:30 天打通深度學習主線18
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言