iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 13
0
自我挑戰組

使用R進行探索式資料分析之初探系列 第 13

電商女鞋消費分析_先來個傳說中的資料清理吧!

  • 分享至 

  • xImage
  •  

資料集來自Kaggle網站,該網站主要由企業或研究者將資料集PO到該平台,資料由資料科學的愛好者進行建模、分析、預測並將結果進行競賽並獲得獎金,在2017年被谷哥大神買下,所以資料集都是合法並真實。
資料及下載位置https://drive.google.com/file/d/1_CQ9F0Iwkd-XBF5O4QmoN4SK9kAqKFg4/view?usp=sharing

本次的資料集是店商網站女鞋的相關資訊,先用Execl開啟來看一下
https://ithelp.ithome.com.tw/upload/images/20200913/20120756VZf1rh4ceL.png

看到都暈了!還是先關起開R比較實在,並將資料集導入至R,並觀看資料結構

library(ggplot2)
library(dplyr)
shoes <- read.csv("D:/工作區/我的筆記/程式筆記/R/Ironman Challenge/shoes/7210_1.csv",
                  stringsAsFactors=FALSE,
                  sep=",",encoding="UTF-8",na.strings=NA,fill=TRUE)
str(shoes)

https://ithelp.ithome.com.tw/upload/images/20200913/20120756Wl1ECcx6oG.png
可以看到該資料集有33,799筆資料52個變數,以及變數的資料型態,看一下資料表

View(shoes)

https://ithelp.ithome.com.tw/upload/images/20200913/20120756tFQmt9Jg0i.png

看起來舒服多了!順便研究哪一些變數可以刪除,而本次的刪除原則如下
1.與本分析毫無相關欄位如條碼、產品影像路徑、功能目錄等等。
2.需要其他資料集關聯才能分析的欄位刪除。
3.變數內幾乎都是空值沒有分析的意義

shoes <- shoes[,-c(2,6,9:16,18:20,23:24,26,28:30,32:35,37:41,43:50)]

此時觀看資料表,發現後面有x2和x3變數,判斷應該將資料匯R中自動產生,當然也是刪除
https://ithelp.ithome.com.tw/upload/images/20200913/20120756LeB038nS68.png

shoes <- shoes[,-c(15:16)]
str(shoes)
View(shoes)

https://ithelp.ithome.com.tw/upload/images/20200913/20120756rLB5GXI9ak.png

所以目前有14個變數,刪除變數在資料探勘中稱之為降維,若你的維度太大會造成計算的成本增加及影響模型的準確度,當然如何刪除變數是依據你的分析需求而定,而目前的預測模型的語言都會建議你選擇變數的套件,這是題外話了!所以我們將這14個變數整理如下表

https://ithelp.ithome.com.tw/upload/images/20200913/20120756xHpuYFAoi7.png


上一篇
R的多重判斷式_以期中考題目為例
下一篇
電商女鞋消費分析_資料清理完結!
系列文
使用R進行探索式資料分析之初探30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言