iT邦幫忙

2021 iThome 鐵人賽

DAY 11
0
AI & Data

後端工程師的ML入門理解與Vertex AI系列 第 11

目前的命題 | ML#Day11

根據前面作業做個檢討,決定新的題目需要有這些條件:

  1. 簡單、明確,即使團隊未參與ml研究的同仁,對於我們要做什麼也完全明白,沒有歧異。
  2. 可以擁有確定答案
  3. 不論一般來說的資料收集或事件發生才能拿到的資料,都很容易取得,例如一天才發生一次的事件就不考慮。
  4. 處理資料,特徵工程的工作盡量能壓到最小,可以的話盡量是靜態的離散資料就可以做為input來完成題目最好。

尤其是第4點,對於沒什麼經驗的我們,如果第一個題目就要處理複雜的特徵萃取,實在太過辛苦。

相對於靜態的離散資料,就是指動態的連續性資料,或者是說有方向性的資料,在下面簡單舉兩個例子。

例子1:

如果你想知道一個人的脈搏數是不是變快或變慢了甚至異常,那麼可能要收集一段時間的資料才得以做出判斷,或者是說才有意義,單單只看1~2秒內的脈搏數,很直觀的大家都知道沒意思。

所以問題來了,收集多久時間的脈搏數,做出的資料才是最恰當?假設1分鐘,1分鐘會不會太久?假設30秒?假設10秒?其實並沒有標準答案,這是一種需要參考連續的前後變化,才能得到的資料,而抓多少時間才合適,需要重複的實驗以及嘗試,光是研究如何讓這個參數轉換成適當的資料,工作上會曠日費時。

例子2:

假設想知道客戶在某項商品購買的成長率,所謂的成長率,簡單來說是這次比起上次多了多少,然後多的部分除以上次的量,單位是百分比,關鍵字就是這次上次。兩次購買的時間可能隔了很久,所以並非連續的資料一定是指時間的連續,但從DB紀錄的資料卻可以知道有個次序的關係。

那問題又來了,或許有可能衍伸的很複雜,例如所謂連續的關係,如果客人上週買過,這週也買,大多人可能直覺兩個有關係,但是上次是一年前買的,那會覺得跟這次購買有關係嗎?可能就不一樣,最後又是回到、一個模糊圈定時間範圍的問題,更何況商品的品項,或者個人狀況,促銷價格狀況,可能都同時影響著購買意願,是不是非常麻煩呢?

光是資料的選定或處理,可能就碰頭灰頭土臉,因為這是商務的實作發展,怎麼挑怎麼處理只有自家最清楚,需要從頭自己來,不像kaggle的練習題目,資料已經是處理好的狀態。


最後我們討論出想嘗試的題目是:

「客人流量與訂單金額量的關係」,以此訓練出一個模型,輔助判斷是否客人有異常的操作,或者系統發生異常行為。例如來說,可能在某個流量數,系統收到的訂單總金額短時間暴增多出預期的好幾倍,或者相反狀況,流量穩定的狀態之下,為何金額銳減,是不是有人因為系統問題購買不了某些商品呢?


上一篇
前兩次題目的結論 | ML#Day10
下一篇
用訂便當講解訂定題目的用途 | ML#Day12
系列文
後端工程師的ML入門理解與Vertex AI30

尚未有邦友留言

立即登入留言