iT邦幫忙

2024 iThome 鐵人賽

DAY 11
0
生成式 AI

從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧系列 第 11

第 11 天:模型訓練第六步|選擇模型

  • 分享至 

  • xImage
  •  

在選擇對應的模型前,我們先來認識常見的訓練模型有哪些吧!每一種模型他的應用場景都不一樣,因此需要先知道你要訓練的資料是屬於什麼類型的資料,選擇對應的模型才可以確保訓練是準確的。

常見的訓練模型

1. 線性回歸 (Linear Regression)

  • 應用場景:用於預測連續數值的問題,如房價預測、銷售額預測、醫療費用預測等。
  • 優點
    • 簡單易懂,結果容易解釋。
    • 計算效率高,適用於高維度數據。
  • 缺點
    • 只能捕捉數據中的線性關係,對於複雜的非線性問題表現不佳。
    • 對於異常值和多重共線性(多個特徵之間高度相關)敏感。

2. 決策樹 (Decision Tree)

  • 應用場景:分類和回歸問題,如信用評分、醫療診斷、客戶細分等。
  • 優點
    • 結果易於解釋,能夠可視化決策過程。
    • 不需要數據的預處理(如標準化或正規化)。
    • 能夠處理數據中的非線性關係。
  • 缺點
    • 容易過擬合,尤其是當樹過深時。
    • 對於噪音敏感,可能導致模型不穩定。

3. 隨機森林 (Random Forest)

  • 應用場景:分類和回歸問題,如風險評估、病患預後預測、圖像分類等。
  • 優點
    • 通過多棵決策樹的集成,減少了過擬合的風險,模型穩定性強。
    • 對於高維數據和異常值的魯棒性較強。
  • 缺點
    • 訓練和預測過程相對較慢,計算資源需求高。
    • 雖然性能好,但結果不容易解釋。

4. 梯度提升樹 (Gradient Boosting Trees,如 XGBoost, LightGBM)

  • 應用場景:分類和回歸問題,如市場預測、信用風險評估、排序問題等。
  • 優點
    • 通常在競賽中表現優異,特別適合處理複雜的非線性數據。
    • 能夠通過學習過程中的迭代,逐步改進模型性能。
    • 具有高靈活性,參數調優後能夠取得優異表現。
  • 缺點
    • 訓練時間長,尤其是參數較多時。
    • 對於參數選擇敏感,需要較多的參數調整。

5. 支持向量機 (Support Vector Machine, SVM)

  • 應用場景:主要用於分類問題,如文本分類、圖像識別、癌症診斷等。
  • 優點
    • 能夠處理高維數據,並且在少量數據的情況下表現良好。
    • 能夠找到區分不同類別的最佳決策邊界。
  • 缺點
    • 對於大規模數據集的訓練時間長,計算複雜度高。
    • 參數選擇和內核函數的選擇對於結果影響較大,調優比較困難。

6. K-最近鄰 (K-Nearest Neighbors, KNN)

  • 應用場景:分類和回歸問題,如推薦系統、圖像分類、手寫字識別等。
  • 優點
    • 簡單易懂,無需訓練過程。
    • 對於數據中沒有明顯的邊界問題,性能良好。
  • 缺點
    • 計算效率低,尤其是數據集較大時。
    • 對於異常值和噪音敏感,對於維度災難(curse of dimensionality)問題表現不佳。

7. 神經網絡 (Neural Networks)

  • 應用場景:廣泛應用於分類和回歸問題,尤其是圖像識別、語音識別、自然語言處理等深度學習場景。
  • 優點
    • 能夠處理複雜的非線性關係,表現優異於大數據集的場景。
    • 有很強的靈活性,能夠自動學習特徵。
  • 缺點
    • 訓練過程複雜且耗時,對於計算資源要求高。
    • 需要大量標註數據,模型解釋性差,調參難度大。

認識了目前常見的訓練模型後,接下來就要根據我們的目的「預測房價」選擇合適的模型來進行訓練啦!就會來到我們的「模型訓練」的步驟了。


上一篇
第 10 天:模型訓練第五步|特徵工程
下一篇
第 12 天:模型訓練第七步|模型訓練
系列文
從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言