iT邦幫忙

2021 iThome 鐵人賽

DAY 10
0
AI & Data

後端工程師的ML入門理解與Vertex AI系列 第 10

前兩次題目的結論 | ML#Day10

接下來跟大家分享我們的入門命題,其實是第三次的題目了,就這點而言,感謝團隊擁有這樣的彈性,並願意一同檢討過去的得失,將經驗成為下次施做的養分。

前二次題目的出發點還是很好,有助於理解和調整我們的商業模式,只是共歷經了約4個月之後,發現實作上目前來講有些障礙太大的困難,因此告一段落之後,展開第三次的命題。

在這之前,簡單地稍作講述歷經前兩次實作,可以分享的一點經驗。


第一次題目,我們想了解客戶的下訂單狀況與狀況。

這個階段了解到一些有趣的統計,以及順便驗證和釐清部分我們對於客群的假想與市場喜好,資料反應出來的有些購買習慣,真的超出我們的想像,例如看到幾乎24小時不間斷的購買(中間間隔不超過兩小時),這個讓人不禁懷疑是程式購買呢?還是排工讀生專業三班代購?

不過終究完成目標實在太發散,ML,尤其對我們這些新手,沒有切確的目標是無法完成的,光是把資料數學化、數字化就遇到莫大的困難。

更何況沒有「預期」的答案,全程混沌不明的狀況之下,這個命題當然也宣告失敗,最終我們得到的需要有切確答案的問題的結論,比較適合開場的題目。


第二次題目,我們想得知哪些是機器人(程式)購買。

這個題目目前暫且被封存,並不是被放棄了。

我們想從購買行為得出某些特徵值,來輔助判斷哪些是機器人購買,做為當遇到系統異常的時候,一個可以參考的資訊。

這個題目有兩個難題,第一個是即使我們能夠從新舊椄口判斷哪些是機器人,累積的資料量其實還略顯不足(本來這些使用者帳戶占的比例就很少)。

二來是承之前討論到的「特徵萃取」的問題,如果是一種有模式的行為,或者是說連續性的行為,第一手的基本基礎資料可能無法發揮太大的作用,我們必需要做特徵萃取,做出第二層,甚至第三層的資料,如此一來不是做不到,但做為第一個跑訓練模型的題目未免也太硬了。

因此與團隊討論後,決定暫且先擱置,先從簡單一點的項目開始。


上一篇
資料的含義 | ML#Day9
下一篇
目前的命題 | ML#Day11
系列文
後端工程師的ML入門理解與Vertex AI30

尚未有邦友留言

立即登入留言