iT邦幫忙

2022 iThome 鐵人賽

DAY 19
0
AI & Data

一同來挖掘 0 程式的Orange!系列 第 19

〔Day19〕如何找出最佳屬性-Box Plot、Distribution

  • 分享至 

  • xImage
  •  

在上篇我們有用到wine這個內鍵數據集,今天一樣要用它來帶大家挑出主要影響分類的屬性!我們開始著手吧~/images/emoticon/emoticon75.gif

分類型數據集評估

在上篇有說到,這組數據為義大利同一地區生產的葡萄酒所進行化學分析的結果,而它包含13個屬性,並呈現出各種化學成分的量,但這麼多屬性,哪些是區分葡萄酒重要的成分?
於本篇,我們將要用rank中的幾種方式來對各屬性進行評分!

補充說明

  • Information Gain(資訊增益): 由母集合切割成各個子集合,依其評估分類屬性對於資料均勻性的提升或減損程度。
  • Gain Ratio(增益率):表示節點的訊息與節點分裂訊息程度的比值。
  • Gini Index(基尼指數Gini Index): 從數據集中隨機選取兩個樣本,其類別標記不一致的概率。
  • ANOVA(變異數分析):一種統計公式,用於比較不同組的均值(或平均值)之間的變異。
  • χ² (Chi2/卡方檢驗/Chi-square test):為計數資料的假設檢驗方法,它屬於非參數檢驗,主要是比較兩個或兩個以上的樣本率,和兩個分類變數的關聯性分析。
  • Relief F: 用於處理目標屬性為連續值的回歸問題,採用過濾器方法,來進行對特徵交互作用特別敏感的類別選擇。
  • FCBF(Fast Correlation-Based Filter Solution):為採用逆向工程,而它用對稱不確定性作為相關程度評估標準,每次選擇一個顯著特徵並刪除它的所有多餘特徵。

右上可選評分方式,而左下則可選擇要選取的屬性,在此我選最下方的選項,讓電腦幫忙選出最佳排序的五個屬性(特徵),並且輸出。

https://ithelp.ithome.com.tw/upload/images/20221004/20151063Q8Px6qIxWx.png
https://ithelp.ithome.com.tw/upload/images/20221004/20151063DP8Ofcqc5z.png

再來,連接「Box Plot」,查看剛剛選出來的五個屬性,在這上面將會顯示它們的平均值、中間值、平方差與四分位數。

https://ithelp.ithome.com.tw/upload/images/20221004/20151063YK2VO4ZALc.png

那我們可以經由點擊右方的不同屬性,會發現到Flavanoids這個屬性將數據分最好!

https://i.imgur.com/7Fb7JmC.gif

再來,我們也可以用另一個「Distributions」組件來看數據在不同屬性下的分布。
https://ithelp.ithome.com.tw/upload/images/20221004/20151063Dkjm8pmylK.png
從這裡看,我們依然會得出Flavanoids為最佳屬性的代表,因為曲線圖的凸點明顯,且重疊處相較於其他屬性少,它可以將葡萄酒分類良好。

https://i.imgur.com/Y9D28dm.gif

迴歸型數據集評估

那以上資料為分類型數據(非連續性的),而Rank其實也可以將迴歸資料進行評估喔,我們試試Datasets裡的「Housing」數據集吧!

https://ithelp.ithome.com.tw/upload/images/20221004/20151063wUtItA7fAl.png

由此筆數據集,來了解波士頓郊區房價與其最高的屬性,而連接好後,點開Rank查看會發現居民的經濟狀況平均住房數為主要因素。

補充說明

  • CRIM: 城鎮人均犯罪率
  • ZN: 住宅用地所佔比例
  • INDUS: 城鎮中非住宅用地所佔比例
  • CHAS: 虛擬變數
  • NOX: 環保指數
  • RM: 每棟住宅的房間數
  • AGE: 1940 年以前建成的自住單位的比例
  • DIS: 距離 5 個波士頓的就業中心的加權距離
  • RAD: 距離高速公路的便利指數
  • TAX: 每一萬美元的不動產稅率
  • PTRATIO: 城鎮中的教師學生比例
  • B: 關於黑人比例的引數
  • LSTAT: 地區中有多少房東屬於低收入人群
  • MEDV: 自住房屋房價中位數(等同於均價),單位 $1000 美元

https://ithelp.ithome.com.tw/upload/images/20221004/20151063nP3GmPTRoY.png

好啦~今天進度就先到這裡囉,大家有其他想測試的文件也可以套用看看囉!/images/emoticon/emoticon29.gif

參考資料:
Relief
Orange
卡方檢驗
增益率Gain ratio
基尼指數Gini Index
特徵選擇之FCBF算法
特徵選擇----relief及reliefF算法
什麼是變異數分析(ANOVA)?
線性迴歸 Statsmodels 模型預測波士頓房價
分類適用屬性的選定(Information Gain) – Medium


上一篇
〔Day18〕將數據化繁為簡-PCA
下一篇
〔Day20〕在Orange中玩玩K-means帶來的效果
系列文
一同來挖掘 0 程式的Orange!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言