iT邦幫忙

2021 iThome 鐵人賽

DAY 24
0
AI & Data

然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)系列 第 24

[Day 24] Scoping — 計画通り

It's truly the beginning. Scoping is a big hurdle. - Michael Printup

前言

meme
機器學習的用途非常廣泛,同一個商業問題能以各種面向的機器學習方案解決,但其中有些解方的價值是其它解方的數倍之多。
但現今依然有許多團隊喜歡一頭栽進他們最感興趣的專案,直到最後才發現同樣的時間若選擇另一個專案或許能產生數倍的價值。
因此在一頭栽進去之前,如果能先停下來找找值得投資且可行的專案,能讓我們少走許多冤枉路,今天就來談談機器學習產品生命週期的第一個階段吧。
life cycle

Scoping

在 Scoping 階段我們通常需要回答以下問題:

  • 要執行哪些專案?
  • 成功的指標為何?
  • 需要哪些資源 (資料、時間、人力)?

而 Scoping 的整體流程如下:
scoping process
*圖片修改自 MLEP — Scoping process

Diligence 來自法律用語 — 盡職調查 Due Diligence (DD),此處是指再次確認 AI 方案的可行性與價值 (Return on Investment, ROI)。
以下為各個步驟的詳細解釋:

  • 刻意將 Problem (What to achieve?) 與 Solution (How to achieve?) 拆開,這是因為先確立問題能幫助我們找到更好的解決方案,即使發現該問題不能用 AI 解決也沒關係。

  • 衡量某專案在技術上是否可行的方法之一為參考外部 benchmark (文獻、其他公司、競爭者…),依照情況還有以下方法:
    different approch
    *圖片修改自 MLEP — Diligence on feasibility and value

    其中專案的歷史進度可以用來預測未來是否還會有突破,以下圖為例,藉由估計專案的週期性進展 (每一季下降多少錯誤率,此例看起來約為 HLP 的 30%),可以看到未來力 (曲線):
    project history
    Error 隨著時間穩定下降,所以可以預期未來還會持續進步

  • 通常 MLE 的目標與商業目標會有一段差距,前者著重於應用的能力,後者著重於應用帶來的利益,以語音辨識為例,兩者的目標可形成一道光譜:
    spectrum
    *圖片來源:MLEP — Diligence on value

    這需要兩者互相妥協,找尋雙方都能接受的目標。
    越靠近光譜中間,ML 團隊越難只用梯度下降或最佳化測試準確度來解決,所以最好是找出 word-level accuracy 與右邊各個目標的連結,但不用太執著,只需要簡單做個 fermi estimate 即可。

  • 最後兩步驟就是確定專案的各項細節,例如:

    • ML 指標 (準確度、precision/recall...)
    • 軟體指標 (給定運算資源的 latency、thoroughput...)
    • 商業指標 (預期收益...)
    • 所需資源 (資料、專業人士、是否需要其他團隊協助...)
    • 時程

如果很難決定上面的細節,可以考慮與其它類似專案比較 (benchmarking) 或先執行 POC (Proof of Concept)。

以上就是今天的內容啦,終於在第 24 天結束了整個機器學習產品生命週期的介紹,明天就要開始來做 final project 啦!
/images/emoticon/emoticon37.gif

參考資料


上一篇
[Day 23] 資料旅程 — 好想出去玩 V1.0 ٩(●ᴗ●)۶
下一篇
[Day 25] Final Project (1/5) — 目標、計畫說明
系列文
然後模型就死在 Jupyter Notebook 了 (ಥ﹏ಥ)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言