iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 13
0
AI & Data

機器學習_資料採礦_透過數據協助決策_R語言系列 第 13

[Day 13] 政府開放資料_計程車營運狀況調查_回歸(數值與類別變數補充)

在回歸分析上,類別變數與數值變數是可以一起進行分析的,之前我其實有找怎樣才能讓兩個同時被寫進回歸,後來發現只要資料處理得當就可以了,把類別變數用因子表示,把數值變數用數值型態表示,R語言的回歸會自動幫我們進行。

之前在做迴歸的時候不小心把原本該是數值型變數的數據整理成類別變數(因子型態),這邊改回正確的表示方式:

xx[,"每天空車時數"] = as.numeric(as.character(xx[,"每天空車時數"]))
xx[,"年齡"] = as.numeric(as.character(xx[,"年齡"]))
xx[,"每月放假"] = as.numeric(as.character(xx[,"每月放假"]))
xx[,"已行駛公里數"] = as.numeric(as.character(xx[,"已行駛公里數"]))
xx[,"營業時數"] = as.numeric(as.character(xx[,"營業時數"]))
xx[,"工作總年資"] = as.numeric(as.character(xx[,"工作總年資"]))

https://ithelp.ithome.com.tw/upload/images/20181025/20111603BaHmMIfZo2.png
比起之前全部都以類別處理,R^2的確增加了。

順帶一題,在R語言當中有個很有趣的操作,當你要將因子變數改成數值型態的時候,並不是使用直觀的as.numeric(),而是要先將因子變數轉變成為文字,再讓R去判斷文字為數字,如果判斷不出來就不要打as.numeric(),用parse_number()。


上一篇
[Day 12] 政府開放資料_計程車營運狀況調查_回歸預測
下一篇
[Day 14] 政府開放資料_每日各站點進出站人數_R語言讀取多個檔案
系列文
機器學習_資料採礦_透過數據協助決策_R語言30

尚未有邦友留言

立即登入留言