資料探勘是資料庫知識探索(Knowledge Discovery in Databases, KDD) 中非常重要的一個環節。KDD指的是從資料庫中探索有價值的知識,具體的步驟如下:
將蒐集到的raw data進行清理,確保資料集的品質。具體的方法包括:填補missing values、刪除outliers、移除重複資料等。
將不同來源的datasets進行合併,形成統一的dataset。
針對實務應用的目標選擇合適的dataset。
透過feature engineering, encoding or data reduction等方法,將清理後的資料更適合資料探勘的形式。
從資料中挖掘有價值的知識,常用的技術包括:classification, association, outlier detection, clustering, and regression。
解釋data mining的結果,並將挖掘到的知識內化,應用到實際決策中。
對不符合預期模式跟資料集中的特殊情況進行預測,在anomaly detection中,常用的技術如下:
用於衡量每個數據點相對於平均值的偏離程度,通過計算標準差來標識異常數據點。
IQR是第一四分位數(Q1)和第三四分位數(Q3)之間的範圍。通常會將數據點小於Q1 - 1.5 * IQR或大於Q3 + 1.5 * IQR視為異常。
通過隨機選擇數據點的分割屬性和分割值,將異常點與正常點隔離開來。
常見的實際應用如下:
在金融業中,每天有數百萬筆的信用卡交易發生在全球各地,這些交易中可能有盜刷信用卡的情形。Anomaly detection可以通過分析交易數據的模式來識別異常交易,這些異常交易可能包括異常大的交易額、不尋常的購物地點、在短時間內的多次大額交易等。
在製造業中,設備運行中可能會發生故障,導致生產線停滯或產生劣質品。通過anomaly detection,企業可以提前發現設備運行數據中的異常模式,預測並防止故障的發生。
在資安領域中,網絡流量中的異常行為,如DDoS攻擊、木馬程式、網路釣魚等,可能對系統造成巨大危害。Anomaly detection能夠幫助網絡管理者及時發現這些異常行為,並採取措施保護系統安全。
突然想到身為一個滷肉飯糾察隊隊員,我對滷肉飯的要求是用國安標準在看待的哈哈,昨天我吃到一家我此生難忘的滷肉飯,我保證這輩子不會再吃了哈哈。順帶一提,今大滷肉飯是我目前心中的No.1🔥
機器學習系列一:學習機器學習必知的程序 — 資料庫知識探索
Knowledge Discovery in Databases (KDD): A Practical Approach