我們昨天做到切分資料那邊,選擇了百分之70的資料作為訓練集,百分之30的資料做為測試集,接下來看我們能不能把剩下的步驟在今天做完吧!!!但我覺得有點太多
粗體為今天會講到的步驟
1.匯入資料
2.選擇要使用的 Columns
3.清理資料
4.資料前處理(資料型態轉換)
5.切分資料為訓練及測試資料集
6.匯入模型
7.訓練模型
8.評分模型
9.評估模型(和評分模型的不同之處在於,評估模型會計算出該模型的MAE / RMSE 等值,提供更直觀的模型評估方式)
(來源:Ashe Liao)
切分完資料後,我們就可以開始匯入自己想要的模型了,由於我們這次要預測的是(0,1)的二元問題("是否"會跳出合約),我們將使用內建的 Two-Class Boosted Decision Tree,當然這可是Azure,很多精巧的機器學習都可以用匯入的方式Azure Machone Learning Studio 中使用。
在左側輸入Two-Class Boosted Decision Tree並將它拖入工作區,
將模型引入後,我們就要開始訓練模型了,在左側搜尋Train model 並向下圖一樣連起來。
接著,在右側選單點選 Launch column selector。那我們要預測的目標欄位是客戶是否會跳出合同,也就是 churn 這個欄位。因此,我們在 column selector 中選擇 churn。
按下Save後,我們可以看到剛剛的紅色驚嘆號已經消失,代表這個模組已經設定好了!!