今天要來跟大家說說如何判斷資料裡的種類,並且用階層式分群法發現不同的組及子組,這次一次一樣會用到鳶尾花的資料集來向大家展示喔!(它真的是太好用惹~
在連接完File和Data Table後,可以打開看Data Table發現鳶尾花數據中,有Iris-setosa、Iris-virginica與Iris-versicolor三個子分類,若覺得字太暗,也可以經由顏色看出。
接下來,我們將運用Distance(距離)這個組件,來構建出後續要接的階層架構圖。
補充說明
Distances的用意,在數據中每一朵花皆是一個個體,同種花的長與寬拿去比較,若是距離越接近,那麼也就越可能被電腦視為是同一種類,固然我們須用到Distances這項組件。
再者,將Distances與Hierarchical Clustering組件接上,點開看它以樹狀圖的方式,呈現出群組的結構以及距離。
可以從下面我幫大家標上的解釋,來了解旁邊的功能~
我們將其放大看,會發現到有一些數據,並未分配到正確的類別中,這時我們可以將他們選取起來,用Data Table觀察是哪一些數據。
也可以接上Scatter Plot視覺化這些數據,看看他們位於哪些位置,能更好理解為何混淆在一塊的原因了!
放在兩邊對照看,更方便點選觀察呦~
今日就到此拉~希望大家都能更熟悉這款系統軟體,而且越來越得心應手喔!
參考資料:
Orange