iT邦幫忙

2021 iThome 鐵人賽

DAY 8
0
AI & Data

後端工程師的ML入門理解與Vertex AI系列 第 8

特徵萃取 | ML#Day8

需要發展「特徵工程」的另一個入門大問題,是沒有想過會需要做特徵提取的工作,也就是從參數裡面得到新的參數,沒踏入這個領域,真的沒想到還要做這個。

這個步驟其實可以無限發想創意,變換再變換,找到新的資料意義,就這點來說專業的資料學家也許根本不是在做呆版重複的工作,反到是充滿探索與想像的發揮。

特徵萃取其實也不是什麼新概念,DB裡面的aggregation method,其實就是這類的事情,count、min、max、avg 等等對原有資料做處理。

取得一連串的資料的最大值,最小值,平均值,或者有什麼特點,有連續性或沒有連續性等等,誕生了新的資料與意義。

我們的第二個題目是想要知道,是不是有程式機器人,透過直打api的方式下訂單,並非真人在網頁面前挑選商品後下訂單。

於是DB一張一張的訂單單獨地看,對這個題目沒有什麼幫助,我們可能需要抓出客人是否有連續下訂單的狀況,甚至24小時不眠不休地在下訂單。

於是需要寫個小程式去從訂單資料統整,抓出每個客人的連續下單狀況,這就是從原有的資料產生新的資料,如果長期下來,甚至需要做得更好,當有每一筆新資料進入到DB的時候,自動產生與上次下單時間關聯的新統計資料,也就是所謂的「自動化」。

對於軟工背景的我們,這件事情相對比較輕鬆,只是在未理解有這項前置作業之前,我們還以為用初級的資料清洗過,就可以達成我們需求,有點把事情想得簡單了。


上一篇
特徵處理的概念 | ML#Day7
下一篇
資料的含義 | ML#Day9
系列文
後端工程師的ML入門理解與Vertex AI30

尚未有邦友留言

立即登入留言