在上篇我們有用到wine這個內鍵數據集,今天一樣要用它來帶大家挑出主要影響分類的屬性!我們開始著手吧~
在上篇有說到,這組數據為義大利同一地區生產的葡萄酒所進行化學分析的結果,而它包含13個屬性,並呈現出各種化學成分的量,但這麼多屬性,哪些是區分葡萄酒重要的成分?
於本篇,我們將要用rank中的幾種方式來對各屬性進行評分!
補充說明
右上可選評分方式,而左下則可選擇要選取的屬性,在此我選最下方的選項,讓電腦幫忙選出最佳排序的五個屬性(特徵),並且輸出。
再來,連接「Box Plot」,查看剛剛選出來的五個屬性,在這上面將會顯示它們的平均值、中間值、平方差與四分位數。
那我們可以經由點擊右方的不同屬性,會發現到Flavanoids這個屬性將數據分最好!
再來,我們也可以用另一個「Distributions」組件來看數據在不同屬性下的分布。
從這裡看,我們依然會得出Flavanoids為最佳屬性的代表,因為曲線圖的凸點明顯,且重疊處相較於其他屬性少,它可以將葡萄酒分類良好。
那以上資料為分類型數據(非連續性的),而Rank其實也可以將迴歸資料進行評估喔,我們試試Datasets裡的「Housing」數據集吧!
由此筆數據集,來了解波士頓郊區房價與其最高的屬性,而連接好後,點開Rank查看會發現居民的經濟狀況和平均住房數為主要因素。
補充說明
好啦~今天進度就先到這裡囉,大家有其他想測試的文件也可以套用看看囉!
參考資料:
Relief
Orange
卡方檢驗
增益率Gain ratio
基尼指數Gini Index
特徵選擇之FCBF算法
特徵選擇----relief及reliefF算法
什麼是變異數分析(ANOVA)?
線性迴歸 Statsmodels 模型預測波士頓房價
分類適用屬性的選定(Information Gain) – Medium