iT邦幫忙

2021 iThome 鐵人賽

DAY 4
0
AI & Data

跟著文組生學數據分析系列 第 4

基礎統計-讓我們來聊聊敘述統計

當我們拿到一份數據資料的時候並不是直接上手開始分析,我們首先需要對進它行「觀察」,並從中了解資料是否處理完善。而這個觀察的方法其實就是統計裡面的「敘述統計」:了解整體資料分布狀態的集中趨勢和離散程度

今天我們不講數學算式,單純來認識這些資料的特性與性質!


針對資料的集中趨勢可以透過以下指標進行觀察:

  • 平均數(算術平均數):資料的總和除以資料的個數所得的值。適合描述正態分布的數據,容易受到極端值的影響。
  • 中位數:位在資料分布中間的數。
  • 眾數:在資料中出現最多次的數,亦可以用於非數值型的資料。

針對資料的離散程度可以透過以下指標進行觀察:

  • 全距:最大值-最小值,距離越大離散程度越大。
  • 四分位距(IQR):第3四分位數-第1四分位數(不包含極端值),可用來繪製箱型圖。
  • 變異數(方差):所有資料減去平均數平方和的平均。(由於樣本的變異數通常都會比母體變異數要來的少,因此除以樣本數-1來與母體變異數相近)
  • 標準差:變異數的平方根。

理解了資料的分布趨勢後,在統計中還有一個非常重要的觀念「常態分布」,且可見於自然與社會中,也是後續許多假設的前提基礎。

常態分布有以下特性:

  • 平均數=中位數=眾數
  • 左右對稱
  • 單峰的鐘形曲線

https://ithelp.ithome.com.tw/upload/images/20210916/201260801JgFpz8HKY.png


關於為甚麼要學統計?就像問船長為什麼要學會看地圖一樣(這是什麼神奇的比喻XD)身為菜鳥分析師的我們雖然對於特定的領域知識一無所知,但我們還是可以依賴我們的統計基礎,先針對拿到手的資料進行一番觀察,從中找出有趣的「發現」,並觀察出資料中的「現象」。
而這些現象也許就是該領域知識的重要關鍵(比方說某些特定日子,數字的波動起伏呈現某些規律,可能與該公司服務的客戶消費特性相關等),讓你更快速的進入狀況。

學好統計有其必要性,接下來就繼續深入統計的世界吧!


上一篇
如何開展你的分析?
下一篇
基礎統計-認識基本圖表與用途
系列文
跟著文組生學數據分析30

尚未有邦友留言

立即登入留言