【Day 18】深度學習理論基礎 - 統計篇 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2022 iThome 鐵人賽

DAY 18

AI & Data

從機器學習到深度學習 - 30天搞懂常見演算法的基礎理論系列第 18 篇

【Day 18】深度學習理論基礎 - 統計篇

14th鐵人賽統計 statistics

sarahwei0804

2022-10-01 21:21:47

1760 瀏覽

分享至

今日大綱

資料型態
敘述統計
機率分配
信賴區間

統計是從資料所得到的資訊，包含了敘述統計、機率分配等等。統計裡的專有名詞有觀察值 (observation)、資料集 (dataset)、特徵 (feature)或屬性 (attribute)與目標 (target)欄位等。以利用過去刷卡金額預測是否被盜刷為例，觀察值為每張新用卡的刷卡金額等其他屬性，資料集為所有蒐集到的信用卡，刷卡金額為特徵，目標欄位為是否被盜刷。

資料型態

名目資料 (Nominal data)
名目資料之間沒有次序的關係，例如性別，男女之間沒有次序之關係，在處理資料時會將男與女的文字轉成0與1，不代表任何意義。
順序資料 (Ordinal data)
順序資料之間存在次序性，有大小之分，例如衣服的尺寸XL、L、M與S，它們之間是有大小關係的。編碼之後的數字，並不能夠做加減運算。
區間資料 (Interval data)
區間資料並沒有絕對的零點，例如填答問卷時，所出現的非常滿意、滿意、普通、不滿意與非常不滿意等，能夠解釋非常滿意與滿意、滿意與普通這兩個之間的差距一樣大
比例資料 (Ratio data)
兩筆資料之間能夠做加減乘除之運算，例如身高、體重等。

敘述統計

將資料輸入製模型前，都會看看資料的分布，了解資料後進一步決定如何處理資料。主要分為兩種，第一種有關集中趨勢的指標，另一種為與資料的離散程度有關。

集中趨勢

平均數 (Average):所有的資料相加並平均。

平均數有個缺點，它容易受離群值 (Outlier) 影響，假設今天的資料點為[100,200,300,400,500]平均數為300，如果將500改成5000，那平均數將提高為10200。
中位數 (Median): 將所有資料由大排到小，中間的資料點即為中位數。如果總樣本數為偶數，那將中間那兩個數值取平均即為中位數。
眾數 (Mode): 出現次數最多的即為眾數，主要使用在離散資料上。

資料離散程度

最大值
最小值
全距 (Range): 最大值與最小值之間的差距
四分位距 (InterQuartile Range): 假設有n筆資料，將資料由小到大排序後，第n乘75%筆資料為第三四分位數 (Q3)，第n乘25%筆資料為第一四分位數 (Q1)，第三四分位數減去第一四分位數即為四分位距。
變異數 (Variance): 當變異數越大，代表資料越分散。