機器學習的核心流程包括了業務洞察(Business Insight)、資料處裡(Data Curation)、模型訓練(Modeling)、佈署上線(Deployment)、A/B 實驗(Testing)、即時監控(Feedback)、持續優化(Improvement)。
在眾多的機器學習主流框架當中,TensorFlow 和 PyTorch 仍是主流,都有廣泛的應用。
- 業務分析:
理解業務場景(銷售、商品、渠道、競品、會員)及資料關聯性,以選擇適當的演算法及學習框架、確認建模方式和學習工具,
- 資料收集:
確保業務資料的真實性與一致性。
- 資料整合:
資料標記(Lable)和特徵提取(Feature Extraction)。
- 資料清理:
格式化和雜訊(Noise)消除。
- 資料規約:
- 維度規約:
刪除不必要的特徵値來壓縮資料量:決策樹、隨機森林、主成分分析
- 數值規約:
將特徵值劃離散化減少連續尺度的資料個數:線性回歸、分群、採樣
- 資料變換:
歸一化(Normalization)、標準化(Standardization)和零均值化(Zero-centered)等資料激活方法。
- 資料探索:
透過資料可視化、擬合(Fitting)函式、特徵向量和特徵值計算探索資料的規律和關聯性。
- 特徵工程(Feature Engineering):
結合:專家經驗"及"先驗知識"持續進行 資料清理 → 資料規約 → 資料變換 以控制資料質量。
- 模型訓練:
在模型訓練過程,持續對 模型框架、目標函式、停止條件 對"超參數"進行優化調整。
- 模型評估:
使用留出法、交叉驗證法、自助法,對精準度、召回率、AUC、損失(Loss)等指標進行評估。
- 佈署上線:
將模型佈署於線上服務,提供即時決策功能。
- A/B實驗:
持續驗證及優化模型。
- 即時監控:
監控特徵値分布作為模型優化依據。
- 資料回歸:
將請求訊息、預估結果、特徵快照、用戶行為等資料回歸到"資料收集"步驟。