iT邦幫忙

2021 iThome 鐵人賽

DAY 15
0
DevOps

中台化轉型系列 第 15

機器學習:建模方法

機器學習的核心流程包括了業務洞察(Business Insight)、資料處裡(Data Curation)、模型訓練(Modeling)、佈署上線(Deployment)、A/B 實驗(Testing)、即時監控(Feedback)、持續優化(Improvement)。

在眾多的機器學習主流框架當中,TensorFlowPyTorch 仍是主流,都有廣泛的應用。

  1. 業務分析:
    理解業務場景(銷售、商品、渠道、競品、會員)及資料關聯性,以選擇適當的演算法及學習框架、確認建模方式和學習工具,
  2. 資料收集:
    確保業務資料的真實性與一致性。
  3. 資料整合:
    資料標記(Lable)和特徵提取(Feature Extraction)。
  4. 資料清理:
    格式化和雜訊(Noise)消除。
  5. 資料規約:
    • 維度規約:
      刪除不必要的特徵値來壓縮資料量:決策樹、隨機森林、主成分分析
    • 數值規約:
      將特徵值劃離散化減少連續尺度的資料個數:線性回歸、分群、採樣
  6. 資料變換:
    歸一化(Normalization)、標準化(Standardization)和零均值化(Zero-centered)等資料激活方法。
  7. 資料探索:
    透過資料可視化、擬合(Fitting)函式、特徵向量和特徵值計算探索資料的規律和關聯性。
  8. 特徵工程(Feature Engineering):
    結合:專家經驗"及"先驗知識"持續進行 資料清理 → 資料規約 → 資料變換 以控制資料質量。
  9. 模型訓練:
    在模型訓練過程,持續對 模型框架、目標函式、停止條件 對"超參數"進行優化調整。
  10. 模型評估:
    使用留出法、交叉驗證法、自助法,對精準度、召回率、AUC、損失(Loss)等指標進行評估。
  11. 佈署上線:
    將模型佈署於線上服務,提供即時決策功能。
  12. A/B實驗:
    持續驗證及優化模型。
  13. 即時監控:
    監控特徵値分布作為模型優化依據。
  14. 資料回歸:
    將請求訊息、預估結果、特徵快照、用戶行為等資料回歸到"資料收集"步驟。

上一篇
基礎建設:分散式服務追蹤
下一篇
機器學習:演算法
系列文
中台化轉型30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言