2024 iThome 鐵人賽

DAY 11

0

生成式 AI

從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧系列第 11 篇

第 11 天：模型訓練第六步｜選擇模型

16th鐵人賽

2024-09-02 07:14:09

262 瀏覽

分享至

在選擇對應的模型前，我們先來認識常見的訓練模型有哪些吧！每一種模型他的應用場景都不一樣，因此需要先知道你要訓練的資料是屬於什麼類型的資料，選擇對應的模型才可以確保訓練是準確的。

常見的訓練模型

1. 線性回歸 (Linear Regression)

應用場景：用於預測連續數值的問題，如房價預測、銷售額預測、醫療費用預測等。
優點：
- 簡單易懂，結果容易解釋。
- 計算效率高，適用於高維度數據。
缺點：
- 只能捕捉數據中的線性關係，對於複雜的非線性問題表現不佳。
- 對於異常值和多重共線性（多個特徵之間高度相關）敏感。

2. 決策樹 (Decision Tree)

應用場景：分類和回歸問題，如信用評分、醫療診斷、客戶細分等。
優點：
- 結果易於解釋，能夠可視化決策過程。
- 不需要數據的預處理（如標準化或正規化）。
- 能夠處理數據中的非線性關係。
缺點：
- 容易過擬合，尤其是當樹過深時。
- 對於噪音敏感，可能導致模型不穩定。

3. 隨機森林 (Random Forest)

應用場景：分類和回歸問題，如風險評估、病患預後預測、圖像分類等。
優點：
- 通過多棵決策樹的集成，減少了過擬合的風險，模型穩定性強。
- 對於高維數據和異常值的魯棒性較強。
缺點：
- 訓練和預測過程相對較慢，計算資源需求高。
- 雖然性能好，但結果不容易解釋。

4. 梯度提升樹 (Gradient Boosting Trees，如 XGBoost, LightGBM)

應用場景：分類和回歸問題，如市場預測、信用風險評估、排序問題等。
優點：
- 通常在競賽中表現優異，特別適合處理複雜的非線性數據。
- 能夠通過學習過程中的迭代，逐步改進模型性能。
- 具有高靈活性，參數調優後能夠取得優異表現。
缺點：
- 訓練時間長，尤其是參數較多時。
- 對於參數選擇敏感，需要較多的參數調整。

5. 支持向量機 (Support Vector Machine, SVM)

應用場景：主要用於分類問題，如文本分類、圖像識別、癌症診斷等。
優點：
- 能夠處理高維數據，並且在少量數據的情況下表現良好。
- 能夠找到區分不同類別的最佳決策邊界。
缺點：
- 對於大規模數據集的訓練時間長，計算複雜度高。
- 參數選擇和內核函數的選擇對於結果影響較大，調優比較困難。

6. K-最近鄰 (K-Nearest Neighbors, KNN)

應用場景：分類和回歸問題，如推薦系統、圖像分類、手寫字識別等。
優點：
- 簡單易懂，無需訓練過程。
- 對於數據中沒有明顯的邊界問題，性能良好。
缺點：
- 計算效率低，尤其是數據集較大時。
- 對於異常值和噪音敏感，對於維度災難（curse of dimensionality）問題表現不佳。

7. 神經網絡 (Neural Networks)

應用場景：廣泛應用於分類和回歸問題，尤其是圖像識別、語音識別、自然語言處理等深度學習場景。
優點：
- 能夠處理複雜的非線性關係，表現優異於大數據集的場景。
- 有很強的靈活性，能夠自動學習特徵。
缺點：
- 訓練過程複雜且耗時，對於計算資源要求高。
- 需要大量標註數據，模型解釋性差，調參難度大。

認識了目前常見的訓練模型後，接下來就要根據我們的目的「預測房價」選擇合適的模型來進行訓練啦！就會來到我們的「模型訓練」的步驟了。

第 10 天：模型訓練第五步｜特徵工程

第 12 天：模型訓練第七步｜模型訓練

系列文

從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧共 30 篇

目錄

RSS系列文訂閱系列文

5 人訂閱

完整目錄

直播研討會

{{ item.subject }}

{{ item.channelVendor }} {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22205 篇

完賽人數

602 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙