一般我們會將資料集樣本分為兩部分,約 70% 當作訓練集,用來建立模型,另外 30% 當作測試集,用來測試訓練好的模型效能。但也有另一種做法就是交叉驗證(Cross Validate),交叉驗證的方法也有分很多種,以 K-fold 為例,會將資料分成多個子集合,選擇某一個子集合當作測試集,其餘則當作訓練集,接著再換成另一個子集合當成測試集,其餘當訓練集,過程會持續重複進行到每個子集合都被當作測試集為止,因為驗證多次,相較之下,也比較不會太依賴預先就切割好的訓練集和測試集。在 Azure Machine Learning Studio 中,可以使用 Cross Validate Model 來執行交叉驗證。
位置:Machine Learning / Evaluate / Cross Validate Model
新增 BikeBuyerWithLocation 資料集
新增 Split Data 分割資料,將資料集的輸出接至 Split Data 的輸入,將資料集切分為訓練集與測試集,比例填 0.7,點選 Run 執行資料切割
新增 Train Model 訓練模型,將 Split Data 的左半邊的訓練集資料輸出接至 Train Model 的輸入,點選右手邊的 Launch column selecter 開啟欄位選擇工具
選擇 BikeBuyer 欄位,點選右下角勾勾確認
新增 Two-Class Logistic Regression 二元分類邏輯迴歸演算法,將演算法接至 Train Model 訓練模型
新增 Score Model 計分模型,將 Train Model 訓練模型的輸出接至 Score Model,另一邊將 Split Data 的右半邊測試集資料輸出接至 Score Model,可以藉由測試資料來檢測模型是否準確
新增 Evaluate Model 評估模型,可以用來評估模型的效能,將 Score Model 的輸出接至 Evaluate Model
接著另一邊新增 Cross Validate Model 交叉驗證模型,將資料集的輸出接至 Cross Validate Model,點選 Launch column selector 開啟欄位選擇工具
選擇 BikeBuyser 欄位,點選右下角勾勾確認
新增 Two-Class Logistic Regression 二元分類邏輯迴歸演算法,接至 Cross Validate Model
新增 Evaluate Model 評估模型,將 Cross Validate Model 的輸出接至 Evaluate Model,點選 Run 執行
執行完成後,可以滑鼠右鍵點選 Visualize 檢視結果
評估結果