機率 - 基礎概念 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2018 iT 邦幫忙鐵人賽

DAY 7

AI & Machine Learning

機器學習你也可以 - 文組帶你手把手實做機器學習聖經系列第 7 篇

機率 - 基礎概念

2018鐵人賽

shortid

2017-12-25 11:30:23

5980 瀏覽

分享至

天啊，終於寫完第一個部份了！
我還以為我第三天就會挑戰賽失敗了…

想跟大家再稍微釐清一下理論上我這三十天的架構，有看PRML的人會知道，我沒有把書上所有的東西都寫到。我只挑了幾個我想談的主題來做介紹，最主要的原因是PRML內容真的非常的多，他不是我目前的水準花三十天可以介紹完的，所以還請大家包涵我是跳著介紹！

雖然說是跳著介紹，我還是盡量整理成有脈絡有組織的方式跟大家介紹！
所以如果你對於我介紹的東西有點興趣的話，建議可以自己去看一下PRML這本書！

接下來就讓我們來談談機率吧！為什麼要談論機率呢？因為其實機率是很適合用在我們的問題上的，今天我們機器去學習，目的是為了什麼？就是為了預測，但是既然是預測，就一定不會是百分之百確定會是什麼，所以用機率的觀點來看機器學習，是可以有更多的啟發的！

我們先從什麼是隨機變數開始，正如最開始所說的，我大學文組，變數我聽過，可是到底什麼是隨機變數，這是一個在最開始就困擾我很久的問題！

其實隨機變數呢，就是一個你不確定他是多少的變數。

舉個例子，你今天有一顆骰子，人家問你你有幾顆骰子，你一定可以秒答一顆，你有幾顆骰子這個就是一個一般的變數。但是呢，如果人家改問你，你骰子骰完會是幾點，你一定會說不一定。沒錯，就是這個不一定！你的骰子骰完會是幾點，就是一個隨機變數！

那我們隨機變數又分兩種：

離散型
連續型

什麼意思呢？
離散型就是，我可以得到的值，只有有限個(或是可數無限)，像是上面骰子的例子，他就是離散型隨機變數，因為他只有可能有六種值！也就是

而在連續型，我可能得到值，就是一般的實數，無限多個！例如身高體重這種數值！

可以想像，你要做一張表格登記個人資料，其中有幾項：
-- 性別
-- 身高
-- 體重

那這三項，性別通常可以用格子讓人家打勾就好了，他就是離散型。而身高體重一定會讓人填一個值吧！應該不會有人把所有可能的身高列下來給人家勾選，那這個呢就會是連續型！

有了隨機變數這個基本概念之後，我們就開始介紹幾個機率重要的性質。

X是一個隨機變數，那麼，其中P代表機率

以剛剛的骰子為例的話
，意思就是X這個隨機變數等於一（也就是骰出一點）的機率是六分之一！
機率加總會是一，離散型的話就是累加，連續型的話就是積分，如下式：

離散型連續型

|
Sum Rule

離散型連續型

|
其中，P(X,Y)的意思是X跟Y的聯合機率，也就是兩個一起發生的機率！
意思就是例如，老師要在班上抽兩個人當值日生，你被抽到的機會，就是你跟你們班每一個人一起被抽到的機會加總。也就是你跟小明一起被抽到的機會、加上你跟小美一起被抽到的機會、加上...以此類推。而到了連續，就只是把累加換成積分而已！
Product Rule

其中，P(X | Y)指的是條件機率，在Y發生的情況下，X發生的機率！
所以很好理解，X跟Y一起發生的機率，就是在X已經發生的情況下，Y發生的機率。也就是你跟你暗戀的雅婷一起被抽到的機率，就是在雅婷被抽到的情況下，你被抽到的機率！

有了Product rule，我們就可以做一些簡單的推導！
首先很自然的

因此

接著，我們同除P(X)

我們就得到了非常有名的貝氏定理
其中幾個重要的名詞如下：
-- P(Y|X)：後驗機率(Posterior)
-- P(X|Y)：Likelihood
-- P(Y)：先驗機率(Prior)

這幾個東西重要在哪裡呢？
我們用前幾篇Curve Fitting的例子來看，我們拿到了幾個點，我們找一個 w ，也就是一條曲線，來fit這幾個點。

我們拿到什麼點，一定是隨機的嘛，所以我們現在把它當成隨機變數 X ，而我們要找的曲線，我們也可以把他當成一個隨機變數，就直接叫他　w 。接著我們就可以用機率的方式來表達我們的問題了！

我們的問題就會變成我們要找到一個 w ，這個 w 在 X 發生的情況下，機率要最高！
什麼是 X 發生的情況，其實就是你拿到了現在你手上的這些資料，X 就是發生了，X就是你拿到了你手上這組資料的事件！其實就是在拿到資料之後，我們要去找哪一個 w 的機率最高。也就是說我們的問題可以寫成 P(w | X)

而根據貝氏定理，我們可以把它寫成

而因為，資料我們已經拿在手上了，所以 P(X) 對於所有 w 都是一樣的！
所以我們可以不管他，不過就不能用等於這個符號了，我們把式子改寫成
，不是等於的那個符號是正比於的意思。

也就是說，我們現在要找最大的P(w | X)，我們可以改找最大的P(X|w)P(w)！

P(X|w)就是likelihood。

likelihood到底是什麼意思呢？看這個式子直觀的意思是說，在w的已經確定的情況下，得到我們手上這些資料的機率是多少。

例如，如果我今天丟銅板，拿到十次正面而且沒有背面，在跑去買樂透之前，我應該就會推測，也許這個銅板機率不是一半一半，甚至我會直接猜測這個銅板正面機率是百分之百。也就是如果我假設正面是二分之一的機會，那得到連續十次正面的機會就是1/1024，不過如果我假設正面的機會是百分之百，那我得到連續十次正面的機會就是百分之百。那這邊的這個1/1024與百分之百就分別是正面機率是二分之一跟百分之百的 likelihood。

所以P(X|w)我們就會去計算以這個 w 這個曲線，要得到我們現在手上這組資料的機率有多高！
而P(w)則是先驗機率，先驗機率就是說，我們什麼條件都沒有的時候，得到這個w的機率是多少！

事實上不只是Curve Fitting的問題可以從這樣機率的角度來看，而是幾乎所有問題都可以用這樣的方式來思考。這也是為什麼機率概念在機器學習中相當的重要！

那麼關於機率的一些基礎概念就先介紹到這邊！

預計明天會跟大家介紹一些常見的機率分布，以及要怎麼利用這些機率分布到我們的機器學習上！
並且也會在近日完整的從機率的角度再檢視一次Curve Fitting！