iT邦幫忙

2024 iThome 鐵人賽

DAY 19
0
AI/ ML & Data

菜就多練之我叫小賀逃離DS新手村系列 第 19

Day 19 在小小的花園裡面挖呀挖呀挖-資料探勘

  • 分享至 

  • xImage
  •  

資料探勘(Data Mining)🐭

資料探勘是資料庫知識探索(Knowledge Discovery in Databases, KDD) 中非常重要的一個環節。KDD指的是從資料庫中探索有價值的知識,具體的步驟如下:

1. Data Cleaning(Preprocessing)

將蒐集到的raw data進行清理,確保資料集的品質。具體的方法包括:填補missing values、刪除outliers、移除重複資料等。

2. Data Integration

將不同來源的datasets進行合併,形成統一的dataset。

3. Data Selection

針對實務應用的目標選擇合適的dataset。

4. Data Transformation

透過feature engineering, encoding or data reduction等方法,將清理後的資料更適合資料探勘的形式。

5. Data Mining

從資料中挖掘有價值的知識,常用的技術包括:classification, association, outlier detection, clustering, and regression。

6. Interpretation(Internalization)

解釋data mining的結果,並將挖掘到的知識內化,應用到實際決策中。


異常偵測(Anomaly detection)🐮

對不符合預期模式跟資料集中的特殊情況進行預測,在anomaly detection中,常用的技術如下:

Z-Score

用於衡量每個數據點相對於平均值的偏離程度,通過計算標準差來標識異常數據點。

Interquartile Range(IQR)

IQR是第一四分位數(Q1)和第三四分位數(Q3)之間的範圍。通常會將數據點小於Q1 - 1.5 * IQR或大於Q3 + 1.5 * IQR視為異常。

Isolation Forest

通過隨機選擇數據點的分割屬性和分割值,將異常點與正常點隔離開來。


常見的實際應用如下:

1. 信用卡盜刷偵測

在金融業中,每天有數百萬筆的信用卡交易發生在全球各地,這些交易中可能有盜刷信用卡的情形。Anomaly detection可以通過分析交易數據的模式來識別異常交易,這些異常交易可能包括異常大的交易額、不尋常的購物地點、在短時間內的多次大額交易等。

2. 設備故障檢測

在製造業中,設備運行中可能會發生故障,導致生產線停滯或產生劣質品。通過anomaly detection,企業可以提前發現設備運行數據中的異常模式,預測並防止故障的發生。

3. 網路攻擊偵測

在資安領域中,網絡流量中的異常行為,如DDoS攻擊、木馬程式、網路釣魚等,可能對系統造成巨大危害。Anomaly detection能夠幫助網絡管理者及時發現這些異常行為,並採取措施保護系統安全。


題外話😂

突然想到身為一個滷肉飯糾察隊隊員,我對滷肉飯的要求是用國安標準在看待的哈哈,昨天我吃到一家我此生難忘的滷肉飯,我保證這輩子不會再吃了哈哈。順帶一提,今大滷肉飯是我目前心中的No.1🔥


參考資料💯

機器學習系列一:學習機器學習必知的程序 — 資料庫知識探索
Knowledge Discovery in Databases (KDD): A Practical Approach


上一篇
Day 18 四季更迭-時間序列分析
下一篇
Day 20 多如牛毛-大數據分析
系列文
菜就多練之我叫小賀逃離DS新手村30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言