iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 9
1

上次我們講完了線性迴歸跟羅吉斯迴歸的差異。

可是並不是每一種資料都是連續型的或是類別型的。

這次要來介紹 Poisson 迴歸,當你要預測的是計數型資料(count data)就可以用他。

Poisson distribution

在講 Poisson 迴歸之前要先來講講 Poisson 分佈,他的公式大概是長的像這樣:

https://chart.googleapis.com/chart?cht=tx&chl=P(Y%3Dy%3B%20%5Clambda)%20%3D%20%5Cfrac%7Be%5E%7B-%20%5Clambda%7D%20%5Clambda%5Ey%7D%7By!%7D

圖形的話看起來是這樣。

圖片來自維基百科

要怎麼看懂這個分佈呢?

我們先想像一個情境好了,假設我們經營一家便利商店,在一天之中來光臨這家商店的人數不同時段不一樣。即使是同一個時段,你也很難準確預測會有多少人進到店裡來。這時候我們就會用機率的描述方式,在這邊 k 指的是當我們觀察每段時間區間內進入店裡的客人數量,那麼 https://chart.googleapis.com/chart?cht=tx&chl=%5Clambda 就是平均來說,每個時間區間的來客人數。你可以看到在 https://chart.googleapis.com/chart?cht=tx&chl=%5Clambda%20%3D%201 的分佈上,來客人數是 0 或是 1 的機率其實很高,但是大於 1 的情形並不是沒有,只是機率比較低罷了。

因此,我們可以用這樣的分佈來估算計數型的資料

Poisson 迴歸

計數型的資料難道不能用一般的線性迴歸嗎?

其實這兩者有非常大的差別:

  1. 計數型的資料不會有負值
  2. 計數型的資料不會有小數點

基於以上兩點資料性質上的差異,我們必須把不同資料分別看待。

但是也不是完全不能用線性迴歸,只是需要動點手腳,就是對資料取 log。

如果你對上面的 Poisson 分佈取 log 的話會發生什麼事呢?

https://chart.googleapis.com/chart?cht=tx&chl=ln(P(Y%3Dy%3B%20%5Clambda))%20%3D%20-%20%5Clambda%20%2B%20y%20ln(%5Clambda)%20-%20%5Csum_%7By%7D%5E%7Bj%3D1%7D%20j

看到了吧!https://chart.googleapis.com/chart?cht=tx&chl=%5Clambda 跳出來了!而平均數 https://chart.googleapis.com/chart?cht=tx&chl=%5Clambda 是連續型的數值,可以作為線性迴歸要預測的對象的。

注意:以上並非正式的證明,請勿用於正式推導

其實我們的 Poisson 迴歸是長成這樣的:

https://chart.googleapis.com/chart?cht=tx&chl=ln(%5Cmathbb%7BE%7D%5By%5D)%20%3D%20ln(%5Cmathbb%7BE%7D%5BP(Y%3Dy%3B%20%5Clambda)%5D)%20%3D%20%5Cmathbf%7Bw%7D%5ET%5Cmathbf%7Bx%7D%20%2B%20b

是不是跟我們前面提到的羅吉斯迴歸有 87% 像呢?

而且我們在上面有提到 https://chart.googleapis.com/chart?cht=tx&chl=%5Clambda 是平均數,所以呢...

https://chart.googleapis.com/chart?cht=tx&chl=ln(%5Cmathbb%7BE%7D%5By%5D)%20%3D%20ln(%5Clambda)%20%3D%20%5Cmathbf%7Bw%7D%5ET%5Cmathbf%7Bx%7D%20%2B%20b

Poisson 迴歸在預測的根本是 https://chart.googleapis.com/chart?cht=tx&chl=ln(%5Clambda) 嘛!


上一篇
09 從線性迴歸到羅吉斯迴歸
下一篇
11 廣義線性模型
系列文
機器學習模型圖書館:從傳統模型到深度學習31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言