本篇將會介紹一個python上的用法,Imblearn 這個本人也是第一次聽過,因為本人在採樣機器學習的知識時發現一篇文章非常有趣,也希望大家可以去看看支持支持,https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets 這個 Kaggle的大大,她在說明一個 Credit Fraud || Dealing with Imbalanced Datasets 採樣數據上的問題,通常都會以一個實際的發想來做題材,但是這位大大是利用一個想法來做一個實驗,那這次也看到一個非常特別的程式模組就是 Imblearn,這個模組其實跟大大所寫的 Imbalanced 很有關係,就是一個不平衡的概念,我們通常有數據的時候都會拿有影響力或是正確的數據性來使用,但是今天假設你收到的資料是一個正確但是它是不平等的數據,哪要如何做出一個適當的判斷?Imblearn就是在做這件事情。
from imblearn.pipeline import make_pipeline as imbalanced_make_pipeline
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import NearMiss
from imblearn.metrics import classification_report_imbalanced
這上面四段的引入程式碼是Kaggle大大所寫的,實際的用法我簡述一下,詳細的各位可以去GOOGLE 直接打上 python imblearn用法就會有詳細做法,簡單來說 Imblearn 就是把不平等的數據將資料彙整起來,將不相近的資料找出相似點把類似的點計算起來,透過幾個數學式產生不規則的歸類方式,讓整體的機率或者是相似度提高,這就是 Imblearn方式,如果有興趣的人希望也可以好好去研究,這對於未來資料收集,給機器做一個學習也是一個不錯的選擇。