需要發展「特徵工程」的另一個入門大問題,是沒有想過會需要做特徵提取的工作,也就是從參數裡面得到新的參數
,沒踏入這個領域,真的沒想到還要做這個。
這個步驟其實可以無限發想創意,變換再變換,找到新的資料意義,就這點來說專業的資料學家也許根本不是在做呆版重複的工作,反到是充滿探索與想像的發揮。
特徵萃取
其實也不是什麼新概念,DB裡面的aggregation method,其實就是這類的事情,count、min、max、avg 等等對原有資料做處理。
取得一連串的資料的最大值,最小值,平均值,或者有什麼特點,有連續性或沒有連續性等等,誕生了新的資料與意義。
我們的第二個題目是想要知道,是不是有程式機器人,透過直打api的方式下訂單,並非真人在網頁面前挑選商品後下訂單。
於是DB一張一張的訂單單獨地看,對這個題目沒有什麼幫助,我們可能需要抓出客人是否有連續下訂單的狀況,甚至24小時不眠不休地在下訂單。
於是需要寫個小程式去從訂單資料統整,抓出每個客人的連續下單狀況,這就是從原有的資料產生新的資料,如果長期下來,甚至需要做得更好,當有每一筆新資料進入到DB的時候,自動產生與上次下單時間關聯的新統計資料,也就是所謂的「自動化」。
對於軟工背景的我們,這件事情相對比較輕鬆,只是在未理解有這項前置作業之前,我們還以為用初級的資料清洗過,就可以達成我們需求,有點把事情想得簡單了。