10 從線性迴歸到 Poisson 迴歸 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2019 iT 邦幫忙鐵人賽

DAY 9

1

AI & Data

機器學習模型圖書館：從傳統模型到深度學習系列第 10 篇

10 從線性迴歸到 Poisson 迴歸

2019鐵人賽 machine learning 機器學習 poisson regression linear regression

2018-10-10 23:00:45

10376 瀏覽

分享至

上次我們講完了線性迴歸跟羅吉斯迴歸的差異。

可是並不是每一種資料都是連續型的或是類別型的。

這次要來介紹 Poisson 迴歸，當你要預測的是計數型資料（count data）就可以用他。

Poisson distribution

在講 Poisson 迴歸之前要先來講講 Poisson 分佈，他的公式大概是長的像這樣：

$https://chart.googleapis.com/chart?cht=tx&chl=P(Y%3Dy%3B%20%5Clambda)%20%3D%20%5Cfrac%7Be%5E%7B-%20%5Clambda%7D%20%5Clambda%5Ey%7D%7By!%7D$

圖形的話看起來是這樣。

圖片來自維基百科

要怎麼看懂這個分佈呢？

我們先想像一個情境好了，假設我們經營一家便利商店，在一天之中來光臨這家商店的人數不同時段不一樣。即使是同一個時段，你也很難準確預測會有多少人進到店裡來。這時候我們就會用機率的描述方式，在這邊 k 指的是當我們觀察每段時間區間內進入店裡的客人數量，那麼 $\lambda$ 就是平均來說，每個時間區間的來客人數。你可以看到在 $\lambda = 1$ 的分佈上，來客人數是 0 或是 1 的機率其實很高，但是大於 1 的情形並不是沒有，只是機率比較低罷了。

因此，我們可以用這樣的分佈來估算計數型的資料

Poisson 迴歸

計數型的資料難道不能用一般的線性迴歸嗎？

其實這兩者有非常大的差別：

計數型的資料不會有負值
計數型的資料不會有小數點

基於以上兩點資料性質上的差異，我們必須把不同資料分別看待。

但是也不是完全不能用線性迴歸，只是需要動點手腳，就是對資料取 log。

如果你對上面的 Poisson 分佈取 log 的話會發生什麼事呢？

$ln(P(Y=y; \lambda)) = - \lambda + y ln(\lambda) - \sum_{y}^{j=1} j$

看到了吧！ $\lambda$ 跳出來了！而平均數 $\lambda$ 是連續型的數值，可以作為線性迴歸要預測的對象的。

注意：以上並非正式的證明，請勿用於正式推導

其實我們的 Poisson 迴歸是長成這樣的：

$ln(\mathbb{E}[y]) = ln(\mathbb{E}[P(Y=y; \lambda)]) = \mathbf{w}^T\mathbf{x} + b$

是不是跟我們前面提到的羅吉斯迴歸有 87% 像呢？

而且我們在上面有提到 $\lambda$ 是平均數，所以呢...

$ln(\mathbb{E}[y]) = ln(\lambda) = \mathbf{w}^T\mathbf{x} + b$

Poisson 迴歸在預測的根本是 $ln(\lambda)$ 嘛！

09 從線性迴歸到羅吉斯迴歸

11 廣義線性模型

系列文

機器學習模型圖書館：從傳統模型到深度學習共 31 篇

目錄

RSS系列文訂閱系列文

118 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

趣味SQL 260224 時間區間重疊偵測與合併

IT邦幫忙