iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

機器學習_資料採礦_透過數據協助決策_R語言 系列

統計學是挑戰神的學問,愛因斯坦說過上帝不擲骰子。

如要我詮釋愛因斯坦這句話,人開一間店,不會什麼事前功課都不做就憑運氣開,我相信他會努力,不!他"必須"努力的去蒐集資料,把隨機因素降到最低才行。上帝擲骰子嗎?可能吧上帝可能擲,但它擲的非隨機的骰子,擲出去的那瞬間他就已經知道結果了。

在學生時代曾用計程車司機的各種變數進行資料採礦(營運時間、車況、正/兼職、車隊、平常愛聽的電台、空繞機率等等)找出計程車司機最能賺錢的方法。當年是用"weka(懷卡托智能分析系統)"這個軟體完成預測的。
本篇文章主旨在使用R語言進行預測、採礦,訓練資料做大數據的分析,告訴我最有利的決策因素!

鐵人鍊成 | 共 30 篇文章 | 25 人訂閱 訂閱系列文 RSS系列文
DAY 21

[Day 21] R語言_令人煩躁的character(0) & logical(0) & integer(0),用identical處理

只要是想介紹遇到character(0) & logical(0) & integer(0) 要怎辦,我偶爾也是會忘記這兩個的處理方法(摁對,上...

2018-11-02 ‧ 由 yanchen 分享
DAY 22

[Day 22] R語言_驗證時序準確性

要檢測時間序列分析是否準確,將資料分成訓練資料(除了最後一整年以外)、測試資料(最後一整年), newdata_t<-ts(as.vector(newda...

2018-11-03 ‧ 由 yanchen 分享
DAY 23

[Day 23] R語言_時序視覺化作圖補充

後來有找到可以更直覺看出預測是否準確的作圖方法,畢竟R語言比起其他程式語言我認為更厲害的其中一個就是他的繪圖能力了吧。 library(forecast) n...

2018-11-04 ‧ 由 yanchen 分享
DAY 24

[Day 24] R語言_熱力圖做資料統整視覺化

用熱力圖的方式去觀察資料的分布,在工作上進行客戶留存率分析時也做過一次熱力圖,要展現許多資料的大小比較時,我認為熱力圖是一個可以讓老大清楚看出優劣的作圖概念。...

2018-11-05 ‧ 由 yanchen 分享
DAY 25

[Day 25] 計程車司機薪資預測_回歸分析的整理

把之前亂七八糟的程式碼整理一下並且提供之前自己整理出來的資料集,方便我自己之後如果要在不同電腦調閱資料用,如果要copy走也比較方便不用一個一個點,其實我之前一...

2018-11-06 ‧ 由 yanchen 分享
DAY 26

[Day 26]R語言_讀取json資料

寫了幾個政府開放資料,發現滿多資料集屬於.json的,一開始不知道怎麼處理,後來發現其實很方便。甚至不用下載資料集,直接用程式碼就可以打開資料集了。 libra...

2018-11-07 ‧ 由 yanchen 分享
DAY 27

[Day 27] R語言_重新順序資料、百分比長條圖

資料是政府開放資料的地區年齡性別統計表-急性病毒性B型肝炎的名單,是.json檔,不必下載可以直接讀取。首先處理名單年齡層問題,因為對電腦而言年齡的資料是 &q...

2018-11-08 ‧ 由 yanchen 分享
DAY 28

[Day 28] R語言_ggplot2長條圖的吹毛求疵(百分比累積長條圖加上文字,網路上沒找到相關的寫法,我自己來寫吧)

因為在網路上沒找到這種長條圖的畫法(至少中文版的沒有哈哈),因此想說在此交流一下。畢竟R語言厲害在繪圖,剛好在工作上最近一直研究ggplot2的長條圖,為了因應...

2018-11-09 ‧ 由 yanchen 分享
DAY 29

[Day 29]R語言_ggplot2長條圖的吹毛求疵_細節決定的成敗

為了讓一張圖上的資料更豐富,我在這張長條圖上做了許多小細節的改動,稍微介紹一下一些需要注意的點。 就這樣,過去29天了,不得不說一開始寫文章的時候是真的很盡心盡...

2018-11-10 ‧ 由 yanchen 分享
DAY 30

[Day 30] 不瘋魔、不成佛_未完待續

常常會看到我的文章今天發表的推翻昨天闡述的,其實我對機器學習也不是太熟悉,抱持著無盡的敬畏以及憧憬。鐵人賽中堅持的,是我每一天都要認真地寫出我"當天&...

2018-11-11 ‧ 由 yanchen 分享