iT邦幫忙

0

利用大數據分析預測MLB勝負(中)

  • 分享至 

  • xImage
  •  

在上一篇文章中,我們介紹作者如何分析MLB賽事,並找出影響比賽勝負較為重要的因子,而今天我們就來看看作者究竟是選擇了哪些模型進行訓練以及預測,並最終做出能夠預測MLB勝負高達61.77%準確度的模型吧!!

模型的建構與選擇

1.數據的分割

在機器學習中,我們通常需要將數據集分成三個部分,分別是

A.訓練集 : 模型學習所用

B.驗證集 : 模型調整參數所用

C.測試集 :模型最終測試結果所用

由於訓練集跟驗證集都是被模型所學習過的資料,因此我們須要特別分出一個測試集,以當作模型沒看過的數據,讓模型預測看看實戰的結果如何

2.模型訓練評估

在數據進行一系列的前處理以及分割後,我們接下來就是要讓模型進行數據的訓練,但究竟要選擇哪個模型比較好呢?答案是「無從考據」,我們只能盡可能拿取大量的模型進行訓練,因此作者在此利用了8個模型對MLB的數據進行訓練,該8個模型分別如下:

Lasso (L1) penalty regularization(L1正規化)
Ridge (L2) penalty regularization(L2正規化)
Elastic net (L1+L2) penalty regularization(彈性網路正規化)
K-Nearest Neighbors classifier(KNN)
Decision tree classifier(決策樹)
Random forest ensemble(隨機森林)
XGBoost classifier
Stochastic gradient descent classifier(隨機梯度下降)
而作者是利用「ROC中的AUC面積」及「brier分數」等評估方法來衡量究竟要選擇哪個模型當作最終的預測模型

想看更詳細的請到下面連結/images/emoticon/emoticon08.gif

原文出處:Guess365


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言