機器學習：建模方法

2021 iThome 鐵人賽

DAY 15

DevOps

中台化轉型系列第 15 篇

13th鐵人賽

HO-HSUN

2021-09-15 00:10:03

1286 瀏覽

分享至

機器學習的核心流程包括了業務洞察(Business Insight)、資料處裡(Data Curation)、模型訓練(Modeling)、佈署上線(Deployment)、A/B 實驗(Testing)、即時監控(Feedback)、持續優化(Improvement)。

在眾多的機器學習主流框架當中，TensorFlow 和 PyTorch 仍是主流，都有廣泛的應用。

業務分析：
理解業務場景(銷售、商品、渠道、競品、會員)及資料關聯性，以選擇適當的演算法及學習框架、確認建模方式和學習工具，
資料收集：
確保業務資料的真實性與一致性。
資料整合：
資料標記(Lable)和特徵提取(Feature Extraction)。
資料清理：
格式化和雜訊(Noise)消除。
資料規約：
- 維度規約：
  刪除不必要的特徵値來壓縮資料量：決策樹、隨機森林、主成分分析
- 數值規約：
  將特徵值劃離散化減少連續尺度的資料個數：線性回歸、分群、採樣
資料變換：
歸一化(Normalization)、標準化(Standardization)和零均值化(Zero-centered)等資料激活方法。
資料探索：
透過資料可視化、擬合(Fitting)函式、特徵向量和特徵值計算探索資料的規律和關聯性。
特徵工程(Feature Engineering)：
結合:專家經驗"及"先驗知識"持續進行資料清理 → 資料規約 → 資料變換以控制資料質量。
模型訓練：
在模型訓練過程，持續對模型框架、目標函式、停止條件對"超參數"進行優化調整。
模型評估：
使用留出法、交叉驗證法、自助法，對精準度、召回率、AUC、損失(Loss)等指標進行評估。
佈署上線：
將模型佈署於線上服務，提供即時決策功能。
A/B實驗：
持續驗證及優化模型。
即時監控：
監控特徵値分布作為模型優化依據。
資料回歸：
將請求訊息、預估結果、特徵快照、用戶行為等資料回歸到"資料收集"步驟。