Day 19 在小小的花園裡面挖呀挖呀挖-資料探勘

2024 iThome 鐵人賽

DAY 19

AI/ ML & Data

菜就多練之我叫小賀逃離DS新手村系列第 19 篇

16th鐵人賽

照燒小子

2024-08-23 23:03:42

796 瀏覽

分享至

資料探勘(Data Mining)🐭

資料探勘是資料庫知識探索(Knowledge Discovery in Databases, KDD) 中非常重要的一個環節。KDD指的是從資料庫中探索有價值的知識，具體的步驟如下：

1. Data Cleaning(Preprocessing)

將蒐集到的raw data進行清理，確保資料集的品質。具體的方法包括：填補missing values、刪除outliers、移除重複資料等。

2. Data Integration

將不同來源的datasets進行合併，形成統一的dataset。

3. Data Selection

針對實務應用的目標選擇合適的dataset。

4. Data Transformation

透過feature engineering, encoding or data reduction等方法，將清理後的資料更適合資料探勘的形式。

5. Data Mining

從資料中挖掘有價值的知識，常用的技術包括：classification, association, outlier detection, clustering, and regression。

6. Interpretation(Internalization)

解釋data mining的結果，並將挖掘到的知識內化，應用到實際決策中。

異常偵測(Anomaly detection)🐮

對不符合預期模式跟資料集中的特殊情況進行預測，在anomaly detection中，常用的技術如下：

Z-Score

用於衡量每個數據點相對於平均值的偏離程度，通過計算標準差來標識異常數據點。

Interquartile Range(IQR)

IQR是第一四分位數（Q1）和第三四分位數（Q3）之間的範圍。通常會將數據點小於Q1 - 1.5 * IQR或大於Q3 + 1.5 * IQR視為異常。

Isolation Forest

通過隨機選擇數據點的分割屬性和分割值，將異常點與正常點隔離開來。

常見的實際應用如下：

1. 信用卡盜刷偵測

在金融業中，每天有數百萬筆的信用卡交易發生在全球各地，這些交易中可能有盜刷信用卡的情形。Anomaly detection可以通過分析交易數據的模式來識別異常交易，這些異常交易可能包括異常大的交易額、不尋常的購物地點、在短時間內的多次大額交易等。

2. 設備故障檢測

在製造業中，設備運行中可能會發生故障，導致生產線停滯或產生劣質品。通過anomaly detection，企業可以提前發現設備運行數據中的異常模式，預測並防止故障的發生。

3. 網路攻擊偵測

在資安領域中，網絡流量中的異常行為，如DDoS攻擊、木馬程式、網路釣魚等，可能對系統造成巨大危害。Anomaly detection能夠幫助網絡管理者及時發現這些異常行為，並採取措施保護系統安全。

題外話😂

突然想到身為一個滷肉飯糾察隊隊員，我對滷肉飯的要求是用國安標準在看待的哈哈，昨天我吃到一家我此生難忘的滷肉飯，我保證這輩子不會再吃了哈哈。順帶一提，今大滷肉飯是我目前心中的No.1🔥

參考資料💯

機器學習系列一：學習機器學習必知的程序 — 資料庫知識探索
 Knowledge Discovery in Databases (KDD): A Practical Approach

Day 18 四季更迭-時間序列分析

Day 20 多如牛毛-大數據分析

系列文

菜就多練之我叫小賀逃離DS新手村共 30 篇

RSS系列文訂閱系列文

5 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

AI會議轉錄如何盡可能縮小明文攻擊面？

IT邦幫忙

菜就多練之我叫小賀逃離DS新手村系列 第 19 篇