iT邦幫忙

1

不可不知描述性統計

此文是《10周入門資料分析》系列的第10篇
想瞭解學習路線,可以先閱讀“ 學習計畫 | 10周入門資料分析 ”
前一篇分享了統計學需要掌握的知識,在資料分析過程中,廣泛用於資料品質處理,分析模型構建以及資料採擷。今天這篇文章將詳細講統計學中最基礎的描述統計。

試想,當你拿到一份數據會怎麼做?二話不說做個圖?

此前也無數次強調,拿到資料需要觀察資料情況和資料品質,對資料進行描述統計分析,以發現其內在的規律,再選擇進一步分析的方法。

什麼是描述性統計?

描述性統計分析要對調查總體所有變數的有關資料做統計性描述,主要包括資料的頻數分析、資料的集中趨勢分析、資料離散程度分析、資料的分佈、以及一些基本的統計圖形。

常用的指標有均值、中位數、眾數、方差、標準差等等。資料的集中趨勢一般採用平均值、中位數表示。資料的離散程度一般採用方差、標準差表示。資料的分佈情況一般採用長條圖表示。

具體概念前一篇有做詳解,就不贅述了。接下來我將用Excel來分別解釋每一種統計方法的應用以及這些統計方法在Excel中的實現方式。

Excel資料分析工具庫

專業的統計分析工具有SPSS,R或Python,但對於大部分新手一天兩天比較難上手。永遠不要忘記萬能的Excel,Excel 2016 裡自帶以了一個統計分析工具 — — “分析工具庫”。實際上就是一個外部巨集(程式)模組,專門為使用者提供一些高級統計函數和實用的資料分析工具。

分析工具庫內置了19個模組,可以分為以下幾大類:

加載EXCEL分析工具庫

首先你得要有Excel 2016。

安裝好2016版後,檔 — 選項 — 切換到“加載項”選項卡,在“管理”下拉清單中選擇“EXCEL加載項”選項,按一下“轉到”按鈕,跳轉到如下“加載宏”對話方塊,勾選“分析工具庫”核取方塊,再按一下“確定”按鈕。

以上一波操作後,“資料”選項卡中會顯示出添加的“資料分析”功能。

小編目前在大陸,用的是大陸的資料&&&
案例分析:
現在有一份北京房價資料:
1)北京市政府為調控房地產價格,希望知道北京各社區房屋價格的分佈,請分析房地產價格的集中趨勢,並選擇合適的圖形呈現。
2)房地產商想知道北京各個環線房屋裝修狀況的對比情況,以便進行產品設計和市場拓展,計算指標並設計合適的圖形呈現結果,最後給房地產商一些建議。
3)選擇合適的圖形反映北京各個區住宅區房屋分佈情況

操作步驟:

  • 基本描述統計打開excel資料檔案
  • 選擇描述統計,按一下“確定”按鈕。

    隨後,就會生成如下的統計分析結果,就省得一個個函數去計算了。

長條圖

根據描述統計的結果,在空白列構造間隔為0.5的等差數列作為接收區域D1:D19,最大值為9,最小值為0。

以上一波操作後,“資料”選項卡中會顯示出添加的“資料分析”功能。

選擇資料,按一下“資料”選項卡,選擇“資料分析”選項框中的“長條圖”選項。

輸入區域選擇房屋價格avgprice列$B$2:$B$186,接收區域選擇第一步構造的接收資料,即D1:D19數據。
輸出區域選擇G3,勾選圖表輸出,然後按一下“確定”按鈕。


選中整個長條圖,按右鍵選擇“設置資料數列格式”,按一下“系列選項”,分類間距設為0。
可以看出,北京的房價普遍分佈在2W~4.5W,2.5W占絕大多數。
關於長條圖
長條圖是描述統計中很常見的一個應用,不同長條圖代表的業務意義不同。
箱型圖
對於資料的離散情況,還有一個更直觀的方法,就是箱線圖。箱線圖利用6個指標描述資料的離散情況。這6個指標分別是最小值,第一四分位數、中位數、第三四分位數與最大值和異常值。

  • 中位數:中位數是一組從小到大排序資料中位置在最中間的一個資料(兩個資料取均值)。
  • 第1(下)四分位數:第1四分位元數與中位數演算法類似,是對一組資料中50%資料再取中位數。一組資料中如果有25%的資料小於這個數,那麼這個數是第1四分位數。
  • 第3(上)四分位數:一組資料中如果有75%的資料小於這個資料,那麼這個數是第3四分位數。
  • 異常值:異常值是指這個資料與四分位元數的差達到5倍的值。箱線圖中異常值的表示方法有兩種,1.5倍-3倍差之間用空心的點表示。超過3倍的異常值,用實心點表示。
  • 上限和下限數:除了異常值之外,最靠近上邊緣和下邊緣的兩個數值為上限數和下限數。

現在來瞭解北京各區的房價分析,把他加工成箱型圖,這也是最常用的描述統計圖表。

Excel 2016 可以直接製作箱型圖。Excel的箱型圖定位6個資料:最大值、最小值、中位數、上四分位數、下四分位數、平均值,還有異常值。
操作步驟:

  • 1、選擇所要統計的資料,即均價。
  • 2、選擇箱型圖

    3、“選擇資料來源”中,水準分類軸加上“區域”,如下

    調整一下樣式得到如下箱型圖。

    中間黑色出現是各區域中游水準的房價標準(中位數);x是全區域的平均房價水準(平均值);箱型上端代表中上游水準;箱型下端代表中下游水平,以此類推。簡而言之,房價分佈被四等分了。

我們來解讀一下:朝陽區的房價分佈範圍較廣,高低值差異較大,可能和橫跨多環有關,整體平均水準位於四區域前列。海澱區平均房價次之,但也不低。豐台區房價分佈較為集中且偏態較小,跨度相對較小。通州區很明顯整體房價最低。
這張圖能一眼看出不少內容,想必大家已經明白箱線圖的作用了,它能讀出資料的整體分佈和傾斜趨勢(偏態)。

到這裡,描述統計的內容就結束了。描述統計是分析資料的一種技巧,包含資料的集中度量(平均數、中位數、眾數)、資料的離散(方差、標準差)、資料的分佈(箱線圖、橫條圖、長條圖)三塊。

我是「數據分析那些事」。常年分享資料分析乾貨,不定期分享好用的職場技能工具。

想瞭解更多的資料分析知識,請關注我的Facebook, 期待你與我互動起來啦~
閱讀原文:不可不知描述性統計


尚未有邦友留言

立即登入留言