特徵萃取 | ML#Day8 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2021 iThome 鐵人賽

DAY 8

AI & Data

特徵萃取 | ML#Day8

13th鐵人賽

1596 瀏覽

需要發展「特徵工程」的另一個入門大問題，是沒有想過會需要做特徵提取的工作，也就是從參數裡面得到新的參數，沒踏入這個領域，真的沒想到還要做這個。

這個步驟其實可以無限發想創意，變換再變換，找到新的資料意義，就這點來說專業的資料學家也許根本不是在做呆版重複的工作，反到是充滿探索與想像的發揮。

特徵萃取其實也不是什麼新概念，DB裡面的aggregation method，其實就是這類的事情，count、min、max、avg 等等對原有資料做處理。

取得一連串的資料的最大值，最小值，平均值，或者有什麼特點，有連續性或沒有連續性等等，誕生了新的資料與意義。

我們的第二個題目是想要知道，是不是有程式機器人，透過直打api的方式下訂單，並非真人在網頁面前挑選商品後下訂單。

於是DB一張一張的訂單單獨地看，對這個題目沒有什麼幫助，我們可能需要抓出客人是否有連續下訂單的狀況，甚至24小時不眠不休地在下訂單。

於是需要寫個小程式去從訂單資料統整，抓出每個客人的連續下單狀況，這就是從原有的資料產生新的資料，如果長期下來，甚至需要做得更好，當有每一筆新資料進入到DB的時候，自動產生與上次下單時間關聯的新統計資料，也就是所謂的「自動化」。

對於軟工背景的我們，這件事情相對比較輕鬆，只是在未理解有這項前置作業之前，我們還以為用初級的資料清洗過，就可以達成我們需求，有點把事情想得簡單了。

系列文

後端工程師的ML入門理解與Vertex AI 共 30 篇

9 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

IT邦幫忙