iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 13
0
Everything on Azure

Azure Machine Learning Studio系列 第 13

Azure Machine Learning Studio 特徵篩選 Filter-Based Feature Selection

在機器學習中,輸入的資料欄位稱為 feature(特徵),輸出的欄位稱為 Label(標籤),如果資料特徵與模型無關或不重要,通常會干擾模型,影響結果,所以不是所有的特徵都要拿來做訓練,需要透過篩選,在 Azure Machine Learning Studio 中,可以使用 Filter-Based Feature Selection 來篩選有用的特徵,Filter-Based Feature Selection 提供多種特徵篩選法,有以下 7 種:

  1. Pearson Correlation 皮爾森相關
    兩個連續變數之間的線性相關
  2. Mutual Information 互信息
    變量間的相互依賴度
  3. Kendall Correlation 肯德爾相關
    兩個變量的相關性強度
  4. Spearman Correlation 斯皮爾曼相關
    兩個變數依賴性的非參數指標
  5. Chi-Squared 卡方
    測量期望值有多接近實際結果的統計方法
  6. Fisher Score 費雪法
    表示一個變量所依賴的某一未知參數的信息量
  7. Count-Based 計數統計
    計算所有值的頻率,根據頻率數給分

https://ithelp.ithome.com.tw/upload/images/20181016/201119358AagLYWWj7.png

Filter-Based Feature Selection 特徵篩選

位置:Feature Selection / Filter Based Feature Selection

  1. 以成人收入調查的二元分類資料集為例,新增"Filter Based Feature Selection",將資料集的輸出接至 Filter Based Feature Selection 的輸入,選擇特徵篩選方法 Pearson Correlation,Target column 目標欄位選擇要預測的結果
    https://ithelp.ithome.com.tw/upload/images/20181016/2011193533Bc2M1K5Z.png

  2. 選擇 income 收入為 Target column 目標欄位
    https://ithelp.ithome.com.tw/upload/images/20181016/20111935Dsa50TlyCb.png

  3. 設定挑選 3 個特徵,會篩選出 3 個分數最高的特徵,執行後可以右鍵點選 Visualize 查看篩選結果
    https://ithelp.ithome.com.tw/upload/images/20181016/20111935WKW97pHBcg.png

  4. 篩選出與收入最相關前 3 個的特徵為:education-num 教育程度、age 年齡、hours-per-week 每週工時
    https://ithelp.ithome.com.tw/upload/images/20181016/20111935UgxXUJQBKd.png

  5. 也可以查看每個特徵透過 Pearson Correlation 方法篩選獲得的分數,輸出點選滑鼠右鍵,選擇 feature > Visualize
    https://ithelp.ithome.com.tw/upload/images/20181016/20111935d5kYiZRRCm.png

  6. 從下圖結果可以看到各個特徵的皮爾森相關值:

  • 教育程度的皮爾森相關 = 0.335154
  • 年齡的皮爾森相關 = 0.234037
  • 每週工時的皮爾森相關 = 0.229689
  • 其餘特徵的皮爾森相關 = 0 ,是因為不是數值資料型態,無法算出皮爾森相關分數

https://ithelp.ithome.com.tw/upload/images/20181016/20111935jjc5IxX32K.png


上一篇
Azure Machine Learning Studio 資料前處理 - 評估機率函數 Evaluate Probability Function
下一篇
Azure Machine Learning Studio 彙總資料 Summarize Data
系列文
Azure Machine Learning Studio30

尚未有邦友留言

立即登入留言