第十天了,今天想要學習三組數據結合之後可以帶給我們什麼樣的訊息?三組數據,就資料分析這個領域來說,馬上就會想到鼎鼎大名的RFM模型。
RFM是根據廣大客戶(消費者)的消費行為以進行分析,就這次手邊的數據來說,國家資料「Countries And Territories」跟廣大客戶的性質很接近,而「Cumulative number for 14 days of COVID-19 cases per 100000」、「Cases」和「Deaths」這三組數據個別的「總和」可以當作這次資料分析的RFM。我們可以這樣的基礎假設下,開始進行吧!
先「建立導出欄位」,把「Cases」的「總和」算出來。公式如下:
「Cumulative number for 14 days of COVID-19 cases per 100000」和「Deaths」的作法與上面公式相同,這邊就不特別貼圖上來了。大家可以自行試試看。 ^_^
接下來,我們把資料分成以20%為一個區間,分別給出1~5分。(Tips : 在這邊,我會把最嚴重的設定為1分,不嚴重的設定為5分)
其他兩組公式的計算,可以比照辦理。
哈哈哈!「拖-拉-放」之後,畫出一個都是ABC的圖表.....
原來,我們還沒有把前面公式中 FIXED 欄位的值告訴 Tableau。現在,我們再來創造一個「國家清單」的資料出來。然後拉到「標記」的地方。(Tips : 從解說與範例來看,這個公式很適合把「國家清單」找出來。)
接下來就是要調整調整。把「國家清單」設定為「顏色」標記之後,「醒目提示表」就可以選取了,隨後再改成自己喜歡的顏色。完成。
從這個圖表上來看,在210個國家中,有 14 個國家還挺嚴重的「1-1-1」。需要重點觀察。
可是,我們怎麼知道是哪幾個國家呢?其實還挺直覺的,把「Countries And Territories」拉到Y軸上就可以了哦!
把兩張工作表合在一起看,是不是有了不一樣的感覺呢!
趕緊下個結論吧!今天將三組資料透過RFM的手法,確實增加了很多「待觀察名單」。不過,這次的實作還是以練習為主,就不特別分析了,因為「Cumulative number for 14 days of COVID-19 cases per 100000」這個數據跟「Cases」這個數據的關聯性太大,在分析上容易產生誤區。不過,RFM模型的思維與應用還是很有研究價值的,當然,有幾個方向是可以考慮,以便進一步改善:
1. 改變分組的間隔大小。好比說,分成7組,或是分成2組,重建Matrix。
2. 改變時間週期。今天這邊的實作是「全部加總」,我們也可以只觀察「最近一週」或是「最近一個月」的結果。
3. 找出更有意義的數據組合。「Cases」和「Deaths」很有代表性,但是「Cumulative number for 14 days of COVID-19 cases per 100000」就有點重複的感覺。或許可以改成,「每日新增確診人數」。這樣的分析,應該會很精彩。
看來,公式的應用機會越來越多了..... 我再好好研究研究,安排安排接下來的學習地圖。 ^_^