iT邦幫忙

2021 iThome 鐵人賽

DAY 21
0
自我挑戰組

終極大數據地獄系列 第 21

#21數據中的機率(2)

tags: tags: 2021IT

對事物運動這種不確定性(隨機性)的肚量就是機率論。
假設我的的集合中只有蘋果和梨兩大物件,蘋果有10個,梨也有10個,這次我們僅考驗顏色特徵。蘋果有兩種顏色:紅色跟黃色,其中紅色佔了8個;梨也有兩種顏色:黃色和綠色,其中黃色佔了9個。假如從這堆水果中挑出一個黃色水果,試問這個水果屬於梨的可能性。

機率論的基礎概念如下:

  • 樣本(樣本點):指隨機實驗的結果,可以視為矩陣中的物件:蘋果或梨。
  • 樣本空間:指隨機實驗所有結果的結合,引申為物件特徵的設定值範圍:10個蘋果,10個梨。
  • 隨機事件:指樣本空間得子集,可以視為某個分類,實際指向一種機率分佈:蘋果為紅色,梨為黃色。
  • 隨機變數:可以視為指向某個事件的變數:https://chart.googleapis.com/chart?cht=tx&chl=X%5C%7Bx_i%3D%E9%BB%83%E8%89%B2%5C%7D
  • 隨機變數的機率分佈:指隨機變數的設定值範圍,導致某種隨機事件出線的可能性。從機器學習的角度來看,就是符合隨機變數設定值範圍的某個物件屬於某個類別或服從某種趨勢的可能性。

結合上面的例子,我們不去研究黃色的蘋果或黃色的梨有什麼差別,而承認其統計規律:蘋果是紅色的機率是0.8,蘋果是黃色的機率就是1-0.8=0.2,而梨是黃色的機率是0.9,將其作為先驗機率。有了這個先驗機率,就可以利用抽樣,即任取一個水果,前提是抽樣對整體的機率分佈沒有影響,透過他的某個特徵來劃分其所屬的類別。黃色是蘋果和梨共有的特徵,因此,既有可能是蘋果與有可能是梨,機率計算的意義在於獲得這個水果更有可能的那一種。

這個問題求解過程就是著名的貝氏公式:
P(B|A)= P(A|B)P(B)/P(A)

帶入上面的例子就是已知P(蘋果)=10/(10+10),P(梨)=10/(10+10),P(黃色|蘋果)=20%,P(黃色|梨)=90%,求P(梨|黃色):

P(|黃色) = P(黃色,梨)/P(黃色) = P(黃色|梨)P(梨)/P(黃色) = 81.8%


上一篇
#20 數據中的機率性(1)
下一篇
#22 數據中中的特徵相關性(1)
系列文
終極大數據地獄24

尚未有邦友留言

立即登入留言