在回歸分析上,類別變數與數值變數是可以一起進行分析的,之前我其實有找怎樣才能讓兩個同時被寫進回歸,後來發現只要資料處理得當就可以了,把類別變數用因子表示,把數值變數用數值型態表示,R語言的回歸會自動幫我們進行。
之前在做迴歸的時候不小心把原本該是數值型變數的數據整理成類別變數(因子型態),這邊改回正確的表示方式:
xx[,"每天空車時數"] = as.numeric(as.character(xx[,"每天空車時數"]))
xx[,"年齡"] = as.numeric(as.character(xx[,"年齡"]))
xx[,"每月放假"] = as.numeric(as.character(xx[,"每月放假"]))
xx[,"已行駛公里數"] = as.numeric(as.character(xx[,"已行駛公里數"]))
xx[,"營業時數"] = as.numeric(as.character(xx[,"營業時數"]))
xx[,"工作總年資"] = as.numeric(as.character(xx[,"工作總年資"]))
比起之前全部都以類別處理,R^2的確增加了。
順帶一題,在R語言當中有個很有趣的操作,當你要將因子變數改成數值型態的時候,並不是使用直觀的as.numeric(),而是要先將因子變數轉變成為文字,再讓R去判斷文字為數字,如果判斷不出來就不要打as.numeric(),用parse_number()。