我們做一個題目,基本上簡單可分成兩種用途:
假設工作日常之中,我負責幫忙大家訂中午的便當,一開始團隊有10個人,會訂11個便當,因為其中一個人胃口大需要吃兩個便當。過了一陣子,團隊加了一個人,結果需要訂了13個便當。
團隊持續再補人,人員共12人,訂14個便當。
再後來人員共13人,訂15個便當。
這個時候,因為有了一些歷史資料,我開始整理共通的特徵,團隊大概兩週多一個人,到時候就會需要多訂一個便當。
目前常訂的店家,接單限制大概都在20份以下,換句話說預測
12週之後,我手上的店家清單需要換一批,變成都是能夠接單20份的店家,因為有這個預測,我能夠抓個準備時間,避免到時候因為訂不了便當帶來的損失成本,這就是做預測
帶來的價值。
然後有時候團隊成員會出現大胃王,需要額外多訂個便當,因此假設老闆問我團隊若有50個人,大概需要訂多少便當,大概會給出55個的答案(粗略估計10個人有一個大胃王)。
因此有這個了解關係
的認知,每當新夥伴加入的時候,我還會先問他是不是大胃王。
如果有需要餐敘或飲食的活動,活用訂便當的認知,分量當然也就不會抓一比一的關係,這就是了解關係
能夠帶來的價值。
就上面例子不考慮資料太少問題,其實很明顯的所謂預測
沒有辦法到達百分之百精準,也許資料越多,考慮的面向和處理經驗越多,當然預測準確率有可能會提高。不過要思考的是,這個預測
能帶來的價值,要投入研究和為了提高精準度需要花費的成本,到底值不值得?
了解關係
也是同樣的道理,到底幾個人當中就會出現一個大胃王?同樣是捉摸不定的推論,誰也知道那個預估可靠性的天花板只能到某種程度,也同樣的資料多或許有幫助,譬如多收集了無數人類的身高體重,身體健康狀況和飲食習慣,藉由大量的數據提煉更多的特徵參數,然後加入新的模型訓練,以此提高精準度,不過,又是一個成本問題。
上面例子的兩個問題,預計兩個禮拜會加一個新人,和一個人會需要多訂一個便當,低機率會在需要多訂一個,是兩件不同的事件,當然在ML算是不同問題,資料收集和處理方式不同,訓練模型也不同。
也許在我們大腦會直覺認知兩者是有關聯的處理,雖然是有關聯沒錯,但ML還不是萬能的許願機,必須分化和拆解成簡單步驟,它是不同的目的=不同的題目=不同的處理。
假設,團隊招募到15人之後就不再擴編。
假設,一個月後,公司組織調整,我們與另一個團隊合併,一口氣馬上額外多了20人。
假設,新進的人全部都是大胃口。
啪,一下子模型就沒有用了。
所以ML的工作項目,千萬要知道可能需要持續調整,不論是環境改變,還是精進模型的精準度,這點在投入之前請務必再三評估用上ML的情境。
通過以上介紹,應該能夠更清楚的知道,我們想做的是了解關係
,客戶的流量數經由訓練出來的模型,可以大概預期訂單的總金額在哪個範圍,藉此判斷系統或者客人是否有異常的行為。