iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 15
0

Other examples of clustering

我們已經討論完分群與相似度的概念,這邊將再舉出一些例子

  • 圖片搜尋:當你上了Google圖片搜尋,你搜尋了某些關鍵字,它運用這點把照片分類並標籤
  • 病況分類:以癲癇為例,我們將其發作病情紀錄進行 clusters ,若可以因此而得出不同的發作病因,就可以更好的對症下藥
  • 購物推薦:假設亞馬遜上有些第三方賣家,他們會發布產品並標籤屬性(把嬰兒床標籤為家具),但若從買家角度來看,從他的購物紀錄出發與其他購買紀錄相似的消費者,這個消費者也買了嬰兒車,因此我們可以透過 clusters 將其作為推薦並重新修改標籤為"嬰兒用品"
  • 網頁搜尋:當我搜尋"cardinal",可能聖路易紅雀隊或關於紅衣樞機的新聞

https://ithelp.ithome.com.tw/upload/images/20171231/20107448GuYimZXPLD.png

另一個有意思的例子是,想一想社區的集合,若我們要估計一個房子的價格,這是一個相當小的地區

在這種情況下,我們只有很少的房子出售訊息,甚至很多時候是沒有的

所以這時候難的是,因為我們幾乎沒有參考點了

此時我們就可以查找,是否有其他地區有相似的房產,這樣我們還是可以較精準的估計其價格,即便在原社區資料很少或幾乎沒有

這樣的解決方法是,我們將有相似趨勢的區域做 clustering ,然後在 cluster 內分享訊息

這個識別相關區域的點子,甚至可以拿來預測犯罪率以最佳化警力的配置

Clustering and similarity ML block diagram

https://ithelp.ithome.com.tw/upload/images/20180101/20107448GIpcBvnDjy.png

  • training data:文件編號、文件內容表
  • 使用 tf-idf 來提取特徵量
  • 透過 Clustering model 產生預測的 Clustering 標籤(ŷ)
  • 我們並沒有一個可以拿來比較的標籤,因為是非監督式學習,所以y並不存在
  • 我們該如何評估 Clustering 的精確度呢?答案是 Voronoi tessellation
  • 我們要評估的判準為 Clustering 的一致性,每個觀測點到 Clustering center 的距離,越小越好
  • 所以我們需要 tf-idf 的資料及 Clustering center 用這兩個來取代真實資料
  • 經由 Quality metric 來得到 Clustering center 與每個觀測點的距離
  • 最後透過 k-means 來更新 Clustering center

Reference:


上一篇
[day 13] 分群與相似度-3
下一篇
[day 15] 分群與相似度-實作
系列文
到底是在learning什麼拉30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言