在資料分析中,對於兩組資料相互關係的研究,最常使用的就是散點圖(XY散佈圖)。
今天就來分析一下,確診人數與死亡人數的關係吧!
把這兩組數字放在一起,第一個可以算出來的就是死亡率。那麼,就先來一張各大洲死亡率走勢圖吧!
1. 先新增一個欄位,把死亡率算出來。公式如下:
2. 選取「Countries Exp」、「DateRep」和「Dead_rate」,然後選取「線(連續)」。
3. 剛產生的圖示用「年」為單位,改成「週」吧!順便調整一下週期。完成。
有沒有覺得這張圖的數字怪怪的? 對,真的是怪怪的。因為這組資料的關係,圖片上呈現的數字代表著「該洲所有國家七天死亡率的加總」。
我花了點時間,研究了一下資料,如果想要呈現出死亡率與時間軸的關係(以「月」為例),可能要對EXCEL檔進行整理,把死亡人數與確診人數以月為單位,加總並存到另一張工作表上,才能夠畫出想要的圖。當然,如果只是想看單一國家的資料,一點問題都沒有。只要把「Countries And Territories」拉進Y軸,再配合時間週期將資料除以30,便能夠得到該月的平均死亡率。
進行到這裏,突然有點小小的感觸!如果資料整理得好,進行視覺化呈現就會相對容易;偏偏現實世界中,能夠拿到的資料,常常都無法如願..... 資料整理、資料分析與資料視覺化呈現,真的是相輔相成啊!哈哈哈!那裏來的那麼多情緒啊!繼續學習Tableau的新功能,比較實在。 ^_^
還是快快進入主題,直接把這兩組數字塞到散點圖(XY散佈圖)中吧!這兩個數據這樣放在一起,我們先進行「分群」。
選取「Countries And Territories」、「Cases」和「Deaths」,然後選取「散點圖」。
將趨勢線拉進來,並選擇「叢集」。完成。
在「叢集」上按右鍵,選擇「描述叢集」,目前Tableau透過特徵將全球的資料分成兩個叢集,其他國家(比較不嚴重)的一群,美國、巴西和印度(較嚴重)被分成一群。
上一張圖計算的是至今的累積數量。我有點好奇,進十天的情況,我把日期改成9/12~9/22,得到一個不同的分群組合。從這張圖來看,除了嚴重族群之外,我反而會去注意到阿根廷、法國和西班牙這三個跳Tone的國家。還有死亡率有點高的「墨西哥」。果然,視覺化呈現,能夠讓資料分析找到從數字上看不到的東西。棒棒的。
接下來,我們再透過這組數據,看看近幾個月來的死亡率變化。
選取「Countries And Territories」、「DateRep」、「Cases」和「Deaths」,然後選取「散點圖」。
然後,大改造一下吧!
1. 調整時間:時間週期改成「月」。
2. 軸向互換:「分析」-->「交換列與欄」。
3. 加上一條線性趨勢線。完成。
我把資料截圖出來,這樣容易比較些。趨勢線越陡表示死亡人數越多。
死亡率從一月開始一路攀升到四月,過了四月之後,死亡率趨勢向下,到了七、八、九月,都能控制在一個穩定的區間。看起來,全球的醫療能力似乎已經能夠有效控制這個病毒對人體的致死率了。