iT邦幫忙

2021 iThome 鐵人賽

DAY 4
1
自我挑戰組

資料分析及AI深度學習-簡單基礎實作系列 第 4

DAY4:Kaggle-Data Science London + Scikit-learn(一)

  • 分享至 

  • xImage
  •  

Kaggle-Data Science London + Scikit-learn(一)

大家好~Kaggle這個平台相信大家都知道,上面有各式各樣的資料和題目,很多題目得到名次還有獎金。我是接觸了資料分析之後才知道這個平台,在結訓後找工作的閒暇時刻,想說上Kaggle找個題目來練習練習,但上面大部分題目都很難啊,後來找到了這個看似比較基礎的題目Data Science London + Scikit-learn(連結在此)


  • 確認問題

裡面總共有這四個CSV檔,其中submission是你要上傳給Kaggle的檔案示範,train裡面有1000筆資料,40個特徵;test有9000筆資料,40個特徵,而trainLabels則是train裡面1000筆資料的label,也就是我們的應變數。而我們要做的事從train的1000筆資料,去預測test的9000筆資料的label是甚麼。


  • 載入資料和觀察資料

我們先載入資料,並且看一下資料的型態,以及檢察缺失值。

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

train = pd.read_csv('./train.csv', header=None)
trainLabel = pd.read_csv('./trainLabels.csv', header=None)
test = pd.read_csv('./test.csv', header=None)
warnings.filterwarnings("ignore")

檢查有無文字資料存在。

categorical = train.select_dtypes(include='object')
print(categorical)

發現並無文字資料,全為數值型的資料。

檢查缺失值。

print(train.isna().sum())

此份資料沒有缺失值。

這份資料算是滿乾淨的,並且她沒有欄位的意思,我們就不做甚麼清洗,接下來做的是特徵篩選。


  • 特徵篩選

這裡我先用主成分分析(Principal Component Analysis,簡稱為 PCA)去做一個特徵的萃取,必須為連續變數且無缺失值。PCA是一種無監督學習,主要用途是在於降低維度,比方說我們有K個維度的特徵,透過PCA降維萃取出M個維度,且這K個維度的特徵在不損失太多資訊的情況下擁有K維特徵大部分的特性。
想對PCA深入了解推薦這篇文章(傳送門)

現在我們就來對資料做PCA處理吧,train和test都要記得做PCA喔!!
那這裡我們取保留15個特徵,然後再來看看PCA後的資料。

from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split

pca = PCA(n_components=15) 
pca_train = pca.fit_transform(train)
pca_test = pca.fit_transform(test)

train_pca_df = pd.DataFrame(pca_train).values
test_pca_df = pd.DataFrame(pca_test).values

train_pca_df

test_pca_df

train和test都變成15個特徵了,接下來再用之前用過的train_test_split來幫我們的train分割出訓練集和測試集,我們取30%切為測試集。

X_train,X_test,y_train,y_test = train_test_split(train_pca_df,trainLabel,test_size=0.3, random_state=101)
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

可以看到已經幫我們分割好了X_train有700筆資料,15個特徵,X_test有300筆資料,15個特徵。y_train和y_test是我們對應的label。

特徵工程篩選好了之後,我們直接丟進模型建模看看囉!!


  • 模型建立

這裡跟我們上一篇用的模型和方法一樣,會需要做SKFold的交叉驗證。
再提醒一次喔,StratifiedKFold跟KFold交叉驗證差別在於,StratifiedKFold做交叉驗證,相較於KFold,StratifiedKFold會照比例在每個data set中抽取資料作驗證。

from sklearn.model_selection import cross_val_score,StratifiedKFold,GridSearchCV

sk_fold = StratifiedKFold(10,shuffle=True, random_state=42)

然後建立我們的模型。
先import SKlearn的模型套件。

# NAIBE BAYES
from sklearn.naive_bayes import GaussianNB
#KNN
from sklearn.neighbors import KNeighborsClassifier
#RANDOM FOREST
from sklearn.ensemble import RandomForestClassifier
#LOGISTIC REGRESSION
from sklearn.linear_model import LogisticRegression
#SVM
from sklearn.svm import SVC
#DECISON TREE
from sklearn.tree import DecisionTreeClassifier
#XGBOOST
from xgboost import XGBClassifier
#AdaBoosting Classifier
from sklearn.ensemble import AdaBoostClassifier
#GradientBoosting Classifier
from sklearn.ensemble import GradientBoostingClassifier
#HistGradientBoostingClassifier
from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingClassifier, StackingClassifier
from sklearn.metrics import confusion_matrix
g_nb = GaussianNB()
knn = KNeighborsClassifier()  # 參數:n_neighbors(鄰居數:預設為5)、weights(權重,預設為uniform)、leaf_size(葉的大小:預設為30)
ran_for  = RandomForestClassifier()
# n_estimators:樹的顆數、max_depth:最大深度,剪枝用,超過全部剪掉。
# min_samples_leaf:搭配max_depth使用,一個節點在分枝後每個子節點都必須包含至少min_samples_leaf個訓練樣本
# bootstrap:重新取樣原有Data產生新的Data,取樣的過程是均勻且可以重複取樣
log_reg = LogisticRegression() #penalty:懲罰函數(預設L2)、C:正則強度倒數,預設為1.0、solver:解決器(默認='lbfgs'),saga對所有懲罰都可以使用
tree= DecisionTreeClassifier()
xgb = XGBClassifier()#https://www.itread01.com/content/1536594984.html 參數詳解
ada_boost = AdaBoostClassifier() # https://ask.hellobi.com/blog/zhangjunhong0428/12405 參數詳解
grad_boost = GradientBoostingClassifier(n_estimators=100) # https://www.itread01.com/content/1514358146.html 參數詳解
hist_grad_boost = HistGradientBoostingClassifier() # https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.HistGradientBoostingClassifier.html

clf = [("Naive Bayes", g_nb, {}), \
       ("K Nearest", knn, {"n_neighbors": [3, 5, 6, 7, 8, 9, 10], "leaf_size": [25, 30, 35]}), \
       ("Random Forest", ran_for,
        {"n_estimators": [10, 50, 100, 200, 400], "max_depth": [3, 10, 20, 40], "random_state": [99],
         "min_samples_leaf": [5, 10, 20, 40, 50], "bootstrap": [False]}), \
       ("Logistic Regression", log_reg, {"penalty": ['l2'], "C": [100, 10, 1.0, 0.1, 0.01], "solver": ['saga']}), \
       ("Decision Tree", tree, {}), \
       ("XGBoost", xgb,
        {"n_estimators": [200], "max_depth": [3, 4, 5], "learning_rate": [.01, .1, .2], "subsample": [.8],
         "colsample_bytree": [1], "gamma": [0, 1, 5], "lambda": [.01, .1, 1]}), \
 \
       ("Adapative Boost", ada_boost, {"n_estimators": [100], "learning_rate": [.6, .8, 1]}), \
       ("Gradient Boost", grad_boost, {}), \
 \
       ("Histogram GB", hist_grad_boost,
        {"loss": ["binary_crossentropy"], "min_samples_leaf": [5, 10, 20, 40, 50], "l2_regularization": [0, .1, 1]})]

前置作業都準備好之後,我們可以來訓練模型了,我透過GridSearchCV這個套件一次訓練多個模型讓他找出最佳參數組合。

stack_list = []
train_scores = pd.DataFrame(columns=["Name", "Train Score", "Test Score"])

i = 0
for name, clf1, param_grid in clf:
    clf = GridSearchCV(clf1, param_grid=param_grid, scoring="accuracy", cv=sk_fold, return_train_score=True)
    clf.fit(X_train, y_train)  # .reshape(-1,1)
    y_pred = clf.best_estimator_.predict(X_test)

    cm = confusion_matrix(y_test, y_pred)
    print(cm)
    print("=====================================")

    train_scores.loc[i] = [name, clf.best_score_, (cm[0, 0] + cm[1, 1,]) / (cm[0, 0] + cm[0, 1] + cm[1, 0] + cm[1, 1])]
    stack_list.append(clf.best_estimator_)
    i = i + 1

est = [("g_nb", stack_list[0]), \
       ("knn", stack_list[1]), \
       ("ran_for", stack_list[2]), \
       ("log_reg", stack_list[3]), \
       ("dec_tree", stack_list[4]), \
       ("XGBoost", stack_list[5]), \
       ("ada_boost", stack_list[6]), \
       ("grad_boost", stack_list[7]), \
       ("hist_grad_boost", stack_list[8])]

最後我一樣會用集成學習的方法stacking堆疊法來做一次建模。

sc = StackingClassifier(estimators=est,final_estimator = None,cv=sk_fold,passthrough=False)
sc.fit(X_train,y_train)
y_pred = sc.predict(X_test)
cm1 = confusion_matrix(y_test,y_pred)
y_pred_train = sc.predict(X_train)
cm2 = confusion_matrix(y_train,y_pred_train)
train_scores.append(pd.Series(["Stacking",(cm2[0,0]+cm2[1,1,])/(cm2[0,0]+cm2[0,1]+cm2[1,0]+cm2[1,1]),(cm1[0,0]+cm1[1,1,])/(cm1[0,0]+cm1[0,1]+cm1[1,0]+cm1[1,1])],index=train_scores.columns),ignore_index=True)

這邊發現stacking的test score最高,我這邊就選擇用stacking模型去預測我最後的結果。

sc.fit(train_pca_df,trainLabel)
y_submit = sc.predict(test_pca_df)
y_submit= pd.DataFrame(y_submit)
y_submit.index +=1
y_submit.columns = ['Solution']
y_submit['Id'] = np.arange(1,y_submit.shape[0]+1)
y_submit = y_submit[['Id', 'Solution']]
y_submit.to_csv('./Submission.csv',index=False)

這分數並沒有很好看,排名也在中後段,於是我後來參考了一個熱心提供code和降維方法的大神,明天來把他的code帶給大家做參考,我的code有些也是抓他的code下來做修改的喔!!今天就先到這邊囉~


  • 今日小結

今天也是帶大家做一個SKlearn的練習,以及做一個特徵工程降維的動作,讓大家熟悉建模的流程,希望有幫助到需要的人喔~!明天見啦~


上一篇
DAY3:離職率預測(下)
下一篇
DAY5:Kaggle-Data Science London + Scikit-learn(二)
系列文
資料分析及AI深度學習-簡單基礎實作30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言