在機器學習中,輸入的資料欄位稱為 feature(特徵),輸出的欄位稱為 Label(標籤),如果資料特徵與模型無關或不重要,通常會干擾模型,影響結果,所以不是所有的特徵都要拿來做訓練,需要透過篩選,在 Azure Machine Learning Studio 中,可以使用 Filter-Based Feature Selection 來篩選有用的特徵,Filter-Based Feature Selection 提供多種特徵篩選法,有以下 7 種:
位置:Feature Selection / Filter Based Feature Selection
以成人收入調查的二元分類資料集為例,新增"Filter Based Feature Selection",將資料集的輸出接至 Filter Based Feature Selection 的輸入,選擇特徵篩選方法 Pearson Correlation,Target column 目標欄位選擇要預測的結果
選擇 income 收入為 Target column 目標欄位
設定挑選 3 個特徵,會篩選出 3 個分數最高的特徵,執行後可以右鍵點選 Visualize 查看篩選結果
篩選出與收入最相關前 3 個的特徵為:education-num 教育程度、age 年齡、hours-per-week 每週工時
也可以查看每個特徵透過 Pearson Correlation 方法篩選獲得的分數,輸出點選滑鼠右鍵,選擇 feature > Visualize
從下圖結果可以看到各個特徵的皮爾森相關值: