【09】當老闆提到：我很好奇，在有購買記錄的使用者中，買的商品種類有沒有什麼特徵呢？

2018 iT 邦幫忙鐵人賽

DAY 9

Data Technology

你都在公司都在幹啥R？ R語言資料分析經驗分享系列第 9 篇

【09】當老闆提到：我很好奇，在有購買記錄的使用者中，買的商品種類有沒有什麼特徵呢？

2018鐵人賽

Capillary J

團隊神功護體

2017-12-26 21:14:51

2550 瀏覽

分享至

有關購買紀錄分析的系列文差不多接近尾聲，最後我想介紹的是Apriori 演算法，這演算法最常被用在分析校費者如果買了A 商品後會再去買B 商品的可能性分析，最經典就是「啤酒與尿布」問題，常見的應用像是新聞網站會有一區會像是「讀了這篇文章的人也讀了ＸＸＸ」、我是電商網站「買了這樣商品的人同時也購買了ＯＯＯ」等...

不過要再使用分析之前，我們必須先把資料變成可以套入演算法的格式，要套入本章介紹的演算法之前，你的資料結構必須長得像這樣。

有了前幾天的練習，要把資料變成這種格式並不難，讓我們一步一步來複習。
首先，我們要把使用者和購買的品項分類

result <- orders %>%
    separate(NAME, c("Category", "Brand"), sep="\\(") %>%
    distinct(BUYERID, Category)

再來，我們又把某使用者購買過的商品變成一欄一欄的紀錄，這邊第一個會想到什麼辦法？答案是spread()，不過在開始之前我們必須先將每筆資料標上編號，所以用mutate() 加欄位，這邊可以用row_number()取得index。

result <- orders %>%
    separate(NAME, c("Category", "Brand"), sep="\\(") %>%
    distinct(BUYERID, Category) %>%
    group_by(BUYERID) %>%
    mutate(row = row_number())

現在既然有了row index，就可以使用spread()切平資料囉！

result <- orders %>%
    separate(NAME, c("Category", "Brand"), sep="\\(") %>%
    distinct(BUYERID, Category) %>%
    group_by(BUYERID) %>%
    mutate(row = row_number()) %>%
    spread(row, Category)

再來，我們不需要BUYERID，所以可以在用select() 來去除，不過由於一開始已經先group_by() 了，所以這邊要再使用ungroup() 處理，然後我在用filter_at()去除第二個欄位為NA的資料，畢竟只有買過單樣商品的人不需要分析嘛！

result <- orders %>%
    separate(NAME, c("Category", "Brand"), sep="\\(") %>%
    distinct(BUYERID, Category) %>%
    group_by(BUYERID) %>%
    mutate(row = row_number()) %>%
    spread(row, Category) %>%
    ungroup() %>%
    select(-BUYERID) %>%
    filter_at(2, all_vars(!is.na(.)))

這個地方我們就先把資料匯出至output資料夾，至於該如何分析我會放在下一篇介紹！

write.table(result, file="output/apriori.csv", sep = ",", na = "", row.names=FALSE, col.names = FALSE)

ref:
day9原始碼

【08】當老闆想知道：啊，來個回饋活動好了，你幫我拉出今年五月購買生活家電且消費滿450以上的消費者聯絡資訊給我

【10】當老闆問說：嗯...你只不過是改變資料結構而已，說好的分析呢？

系列文

你都在公司都在幹啥R？ R語言資料分析經驗分享共 30 篇

RSS系列文訂閱系列文

49 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

你都在公司都在幹啥R？ R語言資料分析經驗分享系列 第 9 篇

【09】當老闆提到：我很好奇，在有購買記錄的使用者中，買的商品種類有沒有什麼特徵呢？

尚未有邦友留言

標記使用者

你都在公司都在幹啥R？ R語言資料分析經驗分享系列第 9 篇