iT邦幫忙

2021 iThome 鐵人賽

DAY 4
0
AI & Data

然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)系列 第 4

[Day 04] 部署模型的挑戰 — 資料也懂超級變變變!?

部署模型有兩個主要的挑戰,事實上這兩個挑戰隱含了機器學習產品生命週期裡的 "部署 (Deploy in production)" 與 "維護 (Monitor & Maintain system)" 兩個面向:

  • 軟體引擎的挑戰:
    把系統建立起來需要考慮許多面向,以下問題可以幫助我們釐清工作方向:
    1. Real-time or Batch:預測是否需要即時回傳?
    2. Cloud vs. Edge/Browser:部署的裝置為何?
    3. Compute resources (CPU/GPU/memory):可用的運算資源為何?
    4. Latency, throughput (QPS):回傳速度要多快?每秒需要做多少次預測?
    5. Logging:盡可能紀錄資料,方便做分析或重新訓練。
    6. Security and privacy:資料是否涉及隱私?
  • 機器學習 (統計上) 的挑戰:
    資料通常會隨時間改變,有時候是緩慢變化 (Gradual change),例如語言習慣,有時候則是急驟改變 (Sudden shock),例如武漢肺炎帶來的消費習慣改變讓很多信用卡盜刷預警系統失效。
    一般來說,成功的機器學習系統必須能偵測與處理以下的資料變化:
    • 資料漂移 (Data drift) 指的是從訓練到服務之間的資料改變,也就是特徵的統計性質改變 (資料分佈 X 改變),像是現在的房子越蓋越小。
    • 概念漂移 (Concept drift) 指的則是世界改變使得 Ground Truth 改變,也就是標籤的統計性質改變 (映射 X → Y 改變),像是炒房使得同樣大小的房子價格改變。

克服了這兩個面向才能確保產品的成功,而部署時還需要考慮部署的模式為何,這部分就等明天再談啦~
/images/emoticon/emoticon07.gif

參考資料


上一篇
[Day 03] 機器學習產品生命週期 — 救救我啊我救我
下一篇
[Day 05] 部署模式 — 我的模型叫崔弟
系列文
然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)30

尚未有邦友留言

立即登入留言