iT邦幫忙

2021 iThome 鐵人賽

DAY 7
0
AI & Data

資料產品開發與專案管理系列 第 7

[Day 7] 資料產品第三層 - 預測模型

大部分的人對於資料開始產生興趣,不外乎就是因為想要預測未來。

https://ithelp.ithome.com.tw/upload/images/20210907/20141140iNR483Zc0D.png
(https://www.livebitcoinnews.com/bitcoin-price-analysis-btc-eyes-more-upsides-above-16k/)

即便不用特別的數據分析,我們也習慣透過搜集資料來對未來做猜測。

不管看到陰天就知道等等就會下雨、或是約會時早就知道你朋友會遲到,我們都會透過曾經發生的事情來預測可能發生的狀況以提早做準備。我們從過去的資料中看見了某種模式(Pattern),即便沒有精確的數字,但也會隱約有個「感覺」(即便「感覺」常常不準)。這個「模式」就是所謂預測模型,每種模式都會解釋一部分的事實,同時也提供了對於未來的猜測。

例如你心中有個「約會遲到模式」,只要是 OOO 就會遲到,但是 XXX 就不會遲到。

對應到比較資料科學的用語來說的話

  • 約會遲到模式 = 模型(Model)
  • 你朋友的名字 = 輸入(Input)、特徵值(Feature)
  • 遲到/不遲到 = 結果(Output)、標籤(Label)

這邊介紹幾個常用的預測模型以及用途

預測數值的模型

https://ithelp.ithome.com.tw/upload/images/20210907/20141140ZSRlcYFr8U.png
(https://foxworthy-8036.medium.com/18-types-of-predictive-models-in-data-science-b53275810032)

迴歸模型有非常多種(見上圖),但主要目的都是為了預測**「數值型」**的結果。

https://ithelp.ithome.com.tw/upload/images/20210907/20141140P5njDzNkCD.png
(https://www.jeremyjordan.me/linear-regression/)

就以最常見到的簡單線性迴歸來說好了,如果你每天在記錄體重和體脂肪的關係(如上圖),在你沒有特別運動的情況下,會發現好像可以在這些資料點之間畫一條直線貫穿所有資料,儘管不是所有點都在線上,可以看到當體重越高時、體脂肪也跟著上身,也可以想像如果未來體重再上升的話,體脂肪也可能跟著上升。

分類模型

https://ithelp.ithome.com.tw/upload/images/20210907/20141140EeS7CnHqsd.png
(https://foxworthy-8036.medium.com/18-types-of-predictive-models-in-data-science-b53275810032)

除了預測數值外,我們也很常問要或不要的二元分類問題或多元分類。這種模型的結果不是數值,而是上一篇提到的類別變項,像是下雨/不下雨、點擊/不點擊,或是貓/狗/魚這樣的問題。

https://ithelp.ithome.com.tw/upload/images/20210907/20141140trKmAYqBul.jpg
(https://www.slideserve.com/griffin-munoz/logistic-regression)

像上圖就是一個在做分類模型時很常使用的羅吉斯迴歸(Logistic Regression),羅吉斯迴歸會在空間中尋找一條能將結果分成兩邊的線,未來只要根據特徵值(Features)就能知道對應的分類是什麼。

訓練預測模型

由於預測模型是根據過去的資料來學習資料的模式,方便我們之後能夠透過輸入的特徵值來預測結果,所以在訓練預測模型時很重要的就是需要準備一堆已經知道「答案」的資料。

https://ithelp.ithome.com.tw/upload/images/20210907/20141140tqPg3xQa8V.png

例如上圖,我們想要知道約朋友出門會不會遲到,需要先搜集過去可能影響遲到的特徵值(Feature),像是天氣、溫度、濕度,接著還需要在這些情況下朋友的遲到狀況(Label),才有辦法學到遲到預測模型。

從這個例子你可以看到,即便做一個簡單的遲到預測模型,我們都還是得循序漸進的先定義好要搜集的資料(天氣資料、遲到紀錄),再將這些資料整理到 Excel 中,看一下有沒有錯誤的紀錄資料、做一下資料處理,才有辦法進到模型階段。這也是資料產品很重要的特色 - 循序漸進,要做高層的分析,那些層次基礎的工作一點都跑不掉。

References

https://foxworthy-8036.medium.com/18-types-of-predictive-models-in-data-science-b53275810032
https://www.jeremyjordan.me/linear-regression/
https://www.slideserve.com/griffin-munoz/logistic-regression


上一篇
[Day 6] 資料產品第三層 - 描述性模型
下一篇
[Day 8] 資料產品第四層 - 你會畫圖嗎?
系列文
資料產品開發與專案管理30

尚未有邦友留言

立即登入留言