[day 14] 分群與相似度-4 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2018 iT 邦幫忙鐵人賽

DAY 15

0

AI & Machine Learning

到底是在learning什麼拉系列第 15 篇

[day 14] 分群與相似度-4

2018鐵人賽 machine learning

團隊晶心壯士

2018-01-02 10:00:23

2965 瀏覽

分享至

Other examples of clustering

我們已經討論完分群與相似度的概念，這邊將再舉出一些例子

圖片搜尋:當你上了Google圖片搜尋，你搜尋了某些關鍵字，它運用這點把照片分類並標籤
病況分類:以癲癇為例，我們將其發作病情紀錄進行 clusters ，若可以因此而得出不同的發作病因，就可以更好的對症下藥
購物推薦:假設亞馬遜上有些第三方賣家，他們會發布產品並標籤屬性(把嬰兒床標籤為家具)，但若從買家角度來看，從他的購物紀錄出發與其他購買紀錄相似的消費者，這個消費者也買了嬰兒車，因此我們可以透過 clusters 將其作為推薦並重新修改標籤為"嬰兒用品"
網頁搜尋:當我搜尋"cardinal"，可能聖路易紅雀隊或關於紅衣樞機的新聞

另一個有意思的例子是，想一想社區的集合，若我們要估計一個房子的價格，這是一個相當小的地區

在這種情況下，我們只有很少的房子出售訊息，甚至很多時候是沒有的

所以這時候難的是，因為我們幾乎沒有參考點了

此時我們就可以查找，是否有其他地區有相似的房產，這樣我們還是可以較精準的估計其價格，即便在原社區資料很少或幾乎沒有

這樣的解決方法是，我們將有相似趨勢的區域做 clustering ，然後在 cluster 內分享訊息

這個識別相關區域的點子，甚至可以拿來預測犯罪率以最佳化警力的配置

Clustering and similarity ML block diagram

training data:文件編號、文件內容表
使用 tf-idf 來提取特徵量
透過 Clustering model 產生預測的 Clustering 標籤(ŷ)
我們並沒有一個可以拿來比較的標籤，因為是非監督式學習，所以y並不存在
我們該如何評估 Clustering 的精確度呢？答案是 Voronoi tessellation
我們要評估的判準為 Clustering 的一致性，每個觀測點到 Clustering center 的距離，越小越好
所以我們需要 tf-idf 的資料及 Clustering center 用這兩個來取代真實資料
經由 Quality metric 來得到 Clustering center 與每個觀測點的距離
最後透過 k-means 來更新 Clustering center

Reference:

Machine Learning Foundations: A Case Study Approach 華盛頓大學在 coursera 上的公開課程，為本筆記追蹤的主要素材
課程投影片

[day 13] 分群與相似度-3

[day 15] 分群與相似度-實作

系列文

到底是在learning什麼拉共 30 篇

目錄

RSS系列文訂閱系列文

37 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

AI會議轉錄如何盡可能縮小明文攻擊面？

IT邦幫忙