iT邦幫忙

2022 iThome 鐵人賽

DAY 9
0
AI & Data

一同來挖掘 0 程式的Orange!系列 第 9

〔Day9〕數據分層並可視化-Hierarchical Clustering、Scatter Plot

  • 分享至 

  • xImage
  •  

今天要來跟大家說說如何判斷資料裡的種類,並且用階層式分群法發現不同的組及子組,這次一次一樣會用到鳶尾花的資料集來向大家展示喔!(它真的是太好用惹~/images/emoticon/emoticon24.gif

觀察

在連接完File和Data Table後,可以打開看Data Table發現鳶尾花數據中,有Iris-setosa、Iris-virginica與Iris-versicolor三個子分類,若覺得字太暗,也可以經由顏色看出。
https://i.imgur.com/BFfpkmc.gif

操作

接下來,我們將運用Distance(距離)這個組件,來構建出後續要接的階層架構圖。

補充說明
Distances的用意,在數據中每一朵花皆是一個個體,同種花的長與寬拿去比較,若是距離越接近,那麼也就越可能被電腦視為是同一種類,固然我們須用到Distances這項組件。

https://ithelp.ithome.com.tw/upload/images/20220924/20151063g3WhFVWJ8f.jpg

再者,將Distances與Hierarchical Clustering組件接上,點開看它以樹狀圖的方式,呈現出群組的結構以及距離。

https://i.imgur.com/b03wrqw.gif

可以從下面我幫大家標上的解釋,來了解旁邊的功能~

  • Linkage : 在昨天我們有說明到兩個群聚之間的距離,共有幾種常用的群聚距離之定義,而這就是群聚距離的選擇。
  • Annotation : 右方框起來的地方,就是註解處,我們可從這裡選擇要依照什麼下註解,目前我選擇的是iris。
  • Pruning : 修剪。
  • Selection : 選擇。
  • Zoom : 調整右方白色區域,圖示的大小。
    https://ithelp.ithome.com.tw/upload/images/20220924/20151063EBeZKBYDNM.jpg

我們將其放大看,會發現到有一些數據,並未分配到正確的類別中,這時我們可以將他們選取起來,用Data Table觀察是哪一些數據。
https://ithelp.ithome.com.tw/upload/images/20220924/20151063wlz7xjxxnE.jpg

也可以接上Scatter Plot視覺化這些數據,看看他們位於哪些位置,能更好理解為何混淆在一塊的原因了!
https://ithelp.ithome.com.tw/upload/images/20220924/20151063zOCmjS5Qzl.jpg

放在兩邊對照看,更方便點選觀察呦~
https://i.imgur.com/YrMEhdG.gif

今日就到此拉~希望大家都能更熟悉這款系統軟體,而且越來越得心應手喔!/images/emoticon/emoticon12.gif

參考資料:
Orange


上一篇
〔Day8〕淺談階層式分群法(Hierarchical Clustering)
下一篇
〔Day10〕分類樹(Classification Tree) vs 迴歸樹(Regression Tree)
系列文
一同來挖掘 0 程式的Orange!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言