(不專業的AI介紹) Imblearn 用法 -> python 使用 Day 27

第 11 屆 iThome 鐵人賽

DAY 27

AI & Data

AI&Machine Learning系列第 27 篇

11th鐵人賽

ken36789

團隊Turing World

2019-10-13 18:51:48

4529 瀏覽

分享至

本篇將會介紹一個python上的用法，Imblearn 這個本人也是第一次聽過，因為本人在採樣機器學習的知識時發現一篇文章非常有趣，也希望大家可以去看看支持支持，https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets 這個 Kaggle的大大，她在說明一個 Credit Fraud || Dealing with Imbalanced Datasets 採樣數據上的問題，通常都會以一個實際的發想來做題材，但是這位大大是利用一個想法來做一個實驗，那這次也看到一個非常特別的程式模組就是 Imblearn，這個模組其實跟大大所寫的 Imbalanced 很有關係，就是一個不平衡的概念，我們通常有數據的時候都會拿有影響力或是正確的數據性來使用，但是今天假設你收到的資料是一個正確但是它是不平等的數據，哪要如何做出一個適當的判斷？Imblearn就是在做這件事情。

from imblearn.pipeline import make_pipeline as imbalanced_make_pipeline
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import NearMiss
from imblearn.metrics import classification_report_imbalanced

這上面四段的引入程式碼是Kaggle大大所寫的，實際的用法我簡述一下，詳細的各位可以去GOOGLE 直接打上 python imblearn用法就會有詳細做法，簡單來說 Imblearn 就是把不平等的數據將資料彙整起來，將不相近的資料找出相似點把類似的點計算起來，透過幾個數學式產生不規則的歸類方式，讓整體的機率或者是相似度提高，這就是 Imblearn方式，如果有興趣的人希望也可以好好去研究，這對於未來資料收集，給機器做一個學習也是一個不錯的選擇。