iT邦幫忙

鐵人檔案

2019 iT 邦幫忙鐵人賽
回列表
AI & Data

機器學習_資料採礦_透過數據協助決策_R語言 系列

統計學是挑戰神的學問,愛因斯坦說過上帝不擲骰子。

如要我詮釋愛因斯坦這句話,人開一間店,不會什麼事前功課都不做就憑運氣開,我相信他會努力,不!他"必須"努力的去蒐集資料,把隨機因素降到最低才行。上帝擲骰子嗎?可能吧上帝可能擲,但它擲的非隨機的骰子,擲出去的那瞬間他就已經知道結果了。

在學生時代曾用計程車司機的各種變數進行資料採礦(營運時間、車況、正/兼職、車隊、平常愛聽的電台、空繞機率等等)找出計程車司機最能賺錢的方法。當年是用"weka(懷卡托智能分析系統)"這個軟體完成預測的。
本篇文章主旨在使用R語言進行預測、採礦,訓練資料做大數據的分析,告訴我最有利的決策因素!

鐵人鍊成 | 共 30 篇文章 | 25 人訂閱 訂閱系列文 RSS系列文
DAY 11

[Day 11] 政府開放資料_計程車營運狀況調查_填補遺失值

資料預處理通常佔了整個分析的70-80%的時間,我沒有認真的按部就班處理完資料,就先進行分析,所以有些誤差或是檢定沒通過也是合理的。尤其對於遺失值我先前沒有好好...

2018-10-23 ‧ 由 yanchen 分享
DAY 12

[Day 12] 政府開放資料_計程車營運狀況調查_回歸預測

預測,我們建立模型的目的,是要用來預測以及求出最佳解的!在R語言當中,建完模型就可以透過R_code 的 predict() 輸入你當下的狀態,從而得知你現在的...

2018-10-24 ‧ 由 yanchen 分享
DAY 13

[Day 13] 政府開放資料_計程車營運狀況調查_回歸(數值與類別變數補充)

在回歸分析上,類別變數與數值變數是可以一起進行分析的,之前我其實有找怎樣才能讓兩個同時被寫進回歸,後來發現只要資料處理得當就可以了,把類別變數用因子表示,把數值...

2018-10-25 ‧ 由 yanchen 分享
DAY 14

[Day 14] 政府開放資料_每日各站點進出站人數_R語言讀取多個檔案

一開始學R語言的時候總會想說,R語言到底比Eexcel好用在哪裡?其中一個就是R語言可以一口氣讀取多個excel檔案!這樣就不用打開每個excel慢慢操作啦。...

2018-10-26 ‧ 由 yanchen 分享
DAY 15

[Day 15] 政府開放資料_每日各站點進出站人數_R語言實現excel功能

在R中實現countifs(),sumifs(),vlookup(),取代,移除重複值等功能,只要你想的到的excel功能,在R中都可以實現,並且R是for資料...

2018-10-27 ‧ 由 yanchen 分享
DAY 16

[Day 16] 政府開放資料_每日各站點進出站人數_R語言實現excel功能-2

繼續介紹資料預處理上遇到的一些問題,確保資料的正確性。我們想知道是站碼還是站名有被更動過,如果有被更動過,那是哪個站備更過動呢? 用等於(=) 、不等於(!=)...

2018-10-28 ‧ 由 yanchen 分享
DAY 17

[Day 17] 政府開放資料_每日各站點進出站人數_R語言的樞紐分析功能

資料(data)型態要轉變成方便閱讀以及方便分析的樣貌。我希望他X軸是所有站名,Y軸是時間,當然我們可以像之前用which()的方法把某一個(例如台北)的數據全...

2018-10-29 ‧ 由 yanchen 分享
DAY 18

[Day 18] 政府開放資料_每日各站點進出站人數_R語言_初談時間序列分析

一個有時間性質的數據要如何進行預測,通常我們分大概三個方向季節性、趨勢跟隨機變異。 舉個例子來說吧!聖誕節商品的銷售量:一定是聖誕節前賣得特別的好(季節性商品)...

2018-10-30 ‧ 由 yanchen 分享
DAY 19

[Day 19] 政府開放資料_每日各站點進出站人數_R語言實現時間序列分析-1

ARMIA模型,全名為自回歸積分滑動平均模型,又稱為box-jenkins模型,由自回歸、移動平均、差分次數,將非平穩時間序列轉化為平穩時間序列,然後將因變量僅...

2018-10-31 ‧ 由 yanchen 分享
DAY 20

[Day 20] 政府開放資料_每日各站點進出站人數_R語言_時間序列分析-2

我在學習ARIMA時間序列模型的時候就有一個疑問,我們要自己去找尋變數d,p,q,我知道這是個學習過程,通過自己手動操作尋找,更能體會acf,pacf,分差這些...

2018-11-01 ‧ 由 yanchen 分享