iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 7
1

天啊,終於寫完第一個部份了!
我還以為我第三天就會挑戰賽失敗了…

想跟大家再稍微釐清一下理論上我這三十天的架構,有看PRML的人會知道,我沒有把書上所有的東西都寫到。我只挑了幾個我想談的主題來做介紹,最主要的原因是PRML內容真的非常的多,他不是我目前的水準花三十天可以介紹完的,所以還請大家包涵我是跳著介紹!

雖然說是跳著介紹,我還是盡量整理成有脈絡有組織的方式跟大家介紹!
所以如果你對於我介紹的東西有點興趣的話,建議可以自己去看一下PRML這本書!

接下來就讓我們來談談機率吧!為什麼要談論機率呢?因為其實機率是很適合用在我們的問題上的,今天我們機器去學習,目的是為了什麼?就是為了預測,但是既然是預測,就一定不會是百分之百確定會是什麼,所以用機率的觀點來看機器學習,是可以有更多的啟發的!

我們先從什麼是隨機變數開始,正如最開始所說的,我大學文組,變數我聽過,可是到底什麼是隨機變數,這是一個在最開始就困擾我很久的問題!

其實隨機變數呢,就是一個你不確定他是多少的變數。

舉個例子,你今天有一顆骰子,人家問你你有幾顆骰子,你一定可以秒答一顆,你有幾顆骰子這個就是一個一般的變數。但是呢,如果人家改問你,你骰子骰完會是幾點,你一定會說不一定。沒錯,就是這個不一定!你的骰子骰完會是幾點,就是一個隨機變數

那我們隨機變數又分兩種:

  • 離散型
  • 連續型

什麼意思呢?
離散型就是,我可以得到的值,只有有限個(或是可數無限),像是上面骰子的例子,他就是離散型隨機變數,因為他只有可能有六種值!也就是

而在連續型,我可能得到值,就是一般的實數,無限多個!例如身高體重這種數值!

可以想像,你要做一張表格登記個人資料,其中有幾項:
-- 性別
-- 身高
-- 體重

那這三項,性別通常可以用格子讓人家打勾就好了,他就是離散型。而身高體重一定會讓人填一個值吧!應該不會有人把所有可能的身高列下來給人家勾選,那這個呢就會是連續型!

有了隨機變數這個基本概念之後,我們就開始介紹幾個機率重要的性質。

  1. X是一個隨機變數,那麼,其中P代表機率

    以剛剛的骰子為例的話
    ,意思就是X這個隨機變數等於一(也就是骰出一點)的機率是六分之一!

  2. 機率加總會是一,離散型的話就是累加,連續型的話就是積分,如下式:

    離散型 連續型

    |

  3. Sum Rule

    離散型 連續型

    |
    其中,P(X,Y)的意思是X跟Y的聯合機率,也就是兩個一起發生的機率!
    意思就是例如,老師要在班上抽兩個人當值日生,你被抽到的機會,就是你跟你們班每一個人一起被抽到的機會加總。也就是你跟小明一起被抽到的機會、加上你跟小美一起被抽到的機會、加上...以此類推。而到了連續,就只是把累加換成積分而已!

  4. Product Rule

    其中,P(X | Y)指的是條件機率,在Y發生的情況下,X發生的機率!
    所以很好理解,X跟Y一起發生的機率,就是在X已經發生的情況下,Y發生的機率。也就是你跟你暗戀的雅婷一起被抽到的機率,就是在雅婷被抽到的情況下,你被抽到的機率!

有了Product rule,我們就可以做一些簡單的推導!
首先很自然的

因此

接著,我們同除P(X)

我們就得到了非常有名的貝氏定理
其中幾個重要的名詞如下:
-- P(Y|X):後驗機率(Posterior)
-- P(X|Y):Likelihood
-- P(Y):先驗機率(Prior)

這幾個東西重要在哪裡呢?
我們用前幾篇Curve Fitting的例子來看,我們拿到了幾個點,我們找一個 w ,也就是一條曲線,來fit這幾個點。

我們拿到什麼點,一定是隨機的嘛,所以我們現在把它當成隨機變數 X ,而我們要找的曲線,我們也可以把他當成一個隨機變數,就直接叫他 w 。接著我們就可以用機率的方式來表達我們的問題了!

我們的問題就會變成我們要找到一個 w ,這個 w 在 X 發生的情況下,機率要最高!
什麼是 X 發生的情況,其實就是你拿到了現在你手上的這些資料,X 就是發生了,X就是你拿到了你手上這組資料的事件!其實就是在拿到資料之後,我們要去找哪一個 w 的機率最高。也就是說我們的問題可以寫成 P(w | X)

而根據貝氏定理,我們可以把它寫成

而因為,資料我們已經拿在手上了,所以 P(X) 對於所有 w 都是一樣的!
所以我們可以不管他,不過就不能用等於這個符號了,我們把式子改寫成
,不是等於的那個符號是正比於的意思。

也就是說,我們現在要找最大的P(w | X),我們可以改找最大的P(X|w)P(w)!

P(X|w)就是likelihood。

likelihood到底是什麼意思呢?看這個式子直觀的意思是說,在w的已經確定的情況下,得到我們手上這些資料的機率是多少。

例如,如果我今天丟銅板,拿到十次正面而且沒有背面,在跑去買樂透之前,我應該就會推測,也許這個銅板機率不是一半一半,甚至我會直接猜測這個銅板正面機率是百分之百。也就是如果我假設正面是二分之一的機會,那得到連續十次正面的機會就是1/1024,不過如果我假設正面的機會是百分之百,那我得到連續十次正面的機會就是百分之百。那這邊的這個1/1024與百分之百就分別是 正面機率是二分之一 跟 百分之百 的 likelihood。

所以P(X|w)我們就會去計算以這個 w 這個曲線,要得到我們現在手上這組資料的機率有多高!
P(w)則是先驗機率,先驗機率就是說,我們什麼條件都沒有的時候,得到這個w的機率是多少!

事實上不只是Curve Fitting的問題可以從這樣機率的角度來看,而是幾乎所有問題都可以用這樣的方式來思考。這也是為什麼機率概念在機器學習中相當的重要!


那麼關於機率的一些基礎概念就先介紹到這邊!

預計明天會跟大家介紹一些常見的機率分布,以及要怎麼利用這些機率分布到我們的機器學習上!
並且也會在近日完整的從機率的角度再檢視一次Curve Fitting!


上一篇
概論 - 動手做看看 Regression回歸篇
下一篇
機率 - 共軛與常見分佈
系列文
機器學習你也可以 - 文組帶你手把手實做機器學習聖經30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言