此文是《10周入門資料分析》系列的第10篇
想瞭解學習路線,可以先閱讀“ 學習計畫 | 10周入門資料分析 ”
前一篇分享了統計學需要掌握的知識,在資料分析過程中,廣泛用於資料品質處理,分析模型構建以及資料採擷。今天這篇文章將詳細講統計學中最基礎的描述統計。
試想,當你拿到一份數據會怎麼做?二話不說做個圖?
此前也無數次強調,拿到資料需要觀察資料情況和資料品質,對資料進行描述統計分析,以發現其內在的規律,再選擇進一步分析的方法。
描述性統計分析要對調查總體所有變數的有關資料做統計性描述,主要包括資料的頻數分析、資料的集中趨勢分析、資料離散程度分析、資料的分佈、以及一些基本的統計圖形。
常用的指標有均值、中位數、眾數、方差、標準差等等。資料的集中趨勢一般採用平均值、中位數表示。資料的離散程度一般採用方差、標準差表示。資料的分佈情況一般採用長條圖表示。
具體概念前一篇有做詳解,就不贅述了。接下來我將用Excel來分別解釋每一種統計方法的應用以及這些統計方法在Excel中的實現方式。
專業的統計分析工具有SPSS,R或Python,但對於大部分新手一天兩天比較難上手。永遠不要忘記萬能的Excel,Excel 2016 裡自帶以了一個統計分析工具 — — “分析工具庫”。實際上就是一個外部巨集(程式)模組,專門為使用者提供一些高級統計函數和實用的資料分析工具。
首先你得要有Excel 2016。
安裝好2016版後,檔 — 選項 — 切換到“加載項”選項卡,在“管理”下拉清單中選擇“EXCEL加載項”選項,按一下“轉到”按鈕,跳轉到如下“加載宏”對話方塊,勾選“分析工具庫”核取方塊,再按一下“確定”按鈕。
以上一波操作後,“資料”選項卡中會顯示出添加的“資料分析”功能。
小編目前在大陸,用的是大陸的資料&&&
案例分析:
現在有一份北京房價資料:
1)北京市政府為調控房地產價格,希望知道北京各社區房屋價格的分佈,請分析房地產價格的集中趨勢,並選擇合適的圖形呈現。
2)房地產商想知道北京各個環線房屋裝修狀況的對比情況,以便進行產品設計和市場拓展,計算指標並設計合適的圖形呈現結果,最後給房地產商一些建議。
3)選擇合適的圖形反映北京各個區住宅區房屋分佈情況
根據描述統計的結果,在空白列構造間隔為0.5的等差數列作為接收區域D1:D19,最大值為9,最小值為0。
以上一波操作後,“資料”選項卡中會顯示出添加的“資料分析”功能。
選擇資料,按一下“資料”選項卡,選擇“資料分析”選項框中的“長條圖”選項。
輸入區域選擇房屋價格avgprice列$B$2:$B$186,接收區域選擇第一步構造的接收資料,即D1:D19數據。
輸出區域選擇G3,勾選圖表輸出,然後按一下“確定”按鈕。
選中整個長條圖,按右鍵選擇“設置資料數列格式”,按一下“系列選項”,分類間距設為0。
可以看出,北京的房價普遍分佈在2W~4.5W,2.5W占絕大多數。
關於長條圖
長條圖是描述統計中很常見的一個應用,不同長條圖代表的業務意義不同。
箱型圖
對於資料的離散情況,還有一個更直觀的方法,就是箱線圖。箱線圖利用6個指標描述資料的離散情況。這6個指標分別是最小值,第一四分位數、中位數、第三四分位數與最大值和異常值。
現在來瞭解北京各區的房價分析,把他加工成箱型圖,這也是最常用的描述統計圖表。
Excel 2016 可以直接製作箱型圖。Excel的箱型圖定位6個資料:最大值、最小值、中位數、上四分位數、下四分位數、平均值,還有異常值。
操作步驟:
我們來解讀一下:朝陽區的房價分佈範圍較廣,高低值差異較大,可能和橫跨多環有關,整體平均水準位於四區域前列。海澱區平均房價次之,但也不低。豐台區房價分佈較為集中且偏態較小,跨度相對較小。通州區很明顯整體房價最低。
這張圖能一眼看出不少內容,想必大家已經明白箱線圖的作用了,它能讀出資料的整體分佈和傾斜趨勢(偏態)。
到這裡,描述統計的內容就結束了。描述統計是分析資料的一種技巧,包含資料的集中度量(平均數、中位數、眾數)、資料的離散(方差、標準差)、資料的分佈(箱線圖、橫條圖、長條圖)三塊。
我是「數據分析那些事」。常年分享資料分析乾貨,不定期分享好用的職場技能工具。
想瞭解更多的資料分析知識,請關注我的Facebook, 期待你與我互動起來啦~
閱讀原文:不可不知描述性統計